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为 什么 要 写 这 本 书 

大 数据 时 代 的 到 来 ,使 我 们 的 生活 在 政治 、 经 济 、 社 会 .文化 等 各 个 领域 都 发 生 了 很 大 的 
变化 。 如 何 从 大 数据 中 挖掘 出 隐 含 的 丰富 知识 与 价值 ,更 好 地 得 出 结论 并 作出 智能 决策 已 
成 为 相关 工作 者 面临 的 机 遇 与 挑战 。 

本 书 基 于 教育 部 “2016 年 产 学 合作 协同 育 人 项 目 ” 一 一 普 开 数据 教学 内 容 和 课程 体系 
改革 项 目 , 作 为 项 目 成 果 公 开 出 版 。 

读者 对 象 

本 书 适合 作为 高 等 教育 "大 数据 处 理 ” 与 大 数据 分 析 ” 课 程 的 教材 ,也 可 作为 其 他 领域 
有 数据 分 析 需 求 的 人 员 培 训 教 材 以 及 大 数据 从 业 人 员 的 参考 书 。 

如 何 阅 读本 书 

本 书 首先 介绍 大 数据 ,包括 大 数据 的 业务 应 用 场景 、 云 计算 与 大 数据 挖掘 以 及 大 数据 挖 
据 过 程 。 介 绍 了 大 数据 相关 技术 ,包括 大 数据 获取 、 预 处 理 、 存 储 和 人 处理、 查询 和 分 析 、 可 视 
化 技术 以 及 主流 大 数据 分 析 平 台 、R 语言 工具 的 使 用 。 接 着 介绍 了 大 数据 挖掘 常用 的 分 类 
模型 和 算法 ,包括 最 基础 的 线性 分 类 方法 ,分 类 器 性 能 评价 标准 以 及 主要 分 类 方法 ,内 容 包 
括 -近邻 分 类 器 、 贝 叶 斯 分 类 ,神经 网 络 与 深度 学 习 、 支 持 向 量 机 等 ,着 重 介绍 了 聚 类 分 析 、 
关联 规则 、 时 间 序 列 分 析 、 预 测 方法 与 离 群 点 诊断 以 及 大 数据 挖掘 可 视 化 常用 技术 。 最 后 对 
各 行 各 业 的 大 数据 挖掘 应 用 案例 进行 了 详细 介绍 。 除 了 系统 方法 的 理论 讲解 之 外 ,我 们 在 
每 一 章 给 出 了 每 种 方法 的 R 语言 实现 的 实例 。 每 一 章 的 小 结 处 按 知识 点 提供 了 参考 学 习 
视频 ,可 通过 微 信 APP 的 扫 一 扫 功 能 扫描 观看 。 
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第 1 篇 
大 数据 分 析 基 础 


【内 容 摘要 】 本 章 对 大 数据 的 产生 及 特征 、 现 状 及 趋势 及 其 面临 的 技术 问题 业务 应 用 
场景 进行 了 简 述 ,并 对 云 计算 与 大 数据 挖掘 进行 了 比较 ,对 大 数据 挖掘 过 程 进行 了 概述 。 

【学 习 目 标 】 理解 大 数据 、 云 计算 与 大 数据 挖掘 的 基本 概念 与 特征 ,掌握 大 数据 挖掘 过 
程 与 方法 ,了 解 大 数据 现状 及 趋势 以 及 面临 的 技术 问题 。 


1.1 大 数据 的 业务 应 用 场景 


1.1.1 大 数据 的 产生 及 特征 


1. 什么 是 大 数据 

大 数据 (Big Data) 或 称 巨 量 资料 ,是 指 需 要 用 新 处 理 模 式 才能 具有 更 强 的 决策 力 ,洞察 
力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 大 数据 是 指 无 法 用 现 有 的 软件 
工具 提取 ,存储 、 搜 索 、 共 享 、 分 析 和 处 理 的 海量 的 复杂 的 数据 集合 。 

大 数据 是 一 个 宽泛 的 概念 ,麦肯锡 咨询 公司 是 研究 大 数据 的 先驱 ,在 其 报告 Big data: 
The nextfrontier for innovation，competitionvand productivity 中 给 出 的 大 数据 定义 : 大 
数据 指 的 是 大 小 超出 常规 的 数据 库 工 具 获 取 、 存 储 、 管 理 和 分 析 能 力 的 数据 集 。 它 同时 强 
调 ,并 不 是 说 一 定 要 超过 特定 TB 值 的 数据 集 才能 算是 大 数据 。 国 际 数据 公司 (IDC) 从 大 数 
据 的 四 个 特征 来 定义 , 即 海量 的 数据 规模 (Volume)、 快 速 的 数据 流转 和 动态 的 数据 体系 
(Velocity) 多 样 的 数据 类 型 (Variety) 和 巨大 的 数据 价值 (Value) 。 亚 马 逊 公司 的 大 数据 科 
学 家 John Rauser 给 出 了 一 个 简单 的 定义 : 大 数据 是 任何 超过 了 一 台 计 算 机 处 理 能 力 的 数 
据 量 。 在 维克托 。 迈 尔 - 舍 恩 伯 格 及 肯 尼 斯 。 库 克 耶 编写 的 (大 数据 时 代 》 中 ,大 数据 是 指 不 
用 随机 分 析 法 (抽样 调查 ) 这 样 的 捷径 ,而 采用 所 有 数据 进行 分 析 处 理 。 

前 面 几 个 定义 都 是 从 大 数据 本 身 出 发 ,我 们 的 定义 更 关心 大 数据 的 功用 , 即 大 数据 是 在 
多 样 的 或 者 大 量 数据 中 迅速 获取 信息 的 能 力 。 在 这 个 定义 中 ,重心 是 能 力 。 大 数据 的 核心 
能 力 , 是 发 现 规律 和 预测 未 来 。 

大 数据 技术 是 指 从 各 种 各 样 类 型 的 数据 中 快速 获得 有 价值 信息 的 能 力 。 适 用 于 大 数据 
的 技术 ,包括 大 规模 并 行 处 理 (MPP) 数 据 库 、 数 据 挖掘 技术 、 分 布 式 文件 系统 ,分 布 式 数据 
库 \ 云 计算 平台 、 互 联网 和 可 扩展 的 存储 系统 。 

2. 大 数据 的 特征 

作为 (大 数据 时 代 ) 一 书 的 作者 ,牛津 大 学 网 络 学 院 互联 网 治理 与 监管 专业 教授 、 大 数据 
权威 咨询 顾问 维克托 。 迈 尔 - 舍 恩 伯 格 博士 认为 ,大 数据 有 三 个 主要 特点 ,分 别 是 全 体 、 混 杂 


和 相关 关系 。 

首先 是 全 体 , 即 收集 和 分 析 更 多 的 数据 。 这 个 数据 都 是 有 关 研 究 问题 的 数据 ,其 中 数据 
点 绝对 的 数字 并 不 重要 ,重要 的 是 有 多 少数 据点 和 研究 的 现象 相关 。 如 果 想 要 研究 的 现象 
只 有 6000 个 数据 点 , 抓 住 6000 个 数据 点 就 是 大 数据 ,因为 这 就 抓 住 了 所 有 数据 。 通 过 这 种 
方式 可 以 看 到 很 多 细节 ,这 些 细节 在 之 前 随机 抽样 是 得 不 到 的 。 

其 次 是 混杂 , 即 接受 混杂 。 在 小 数据 时 代 人 们 总 试图 收集 一 些 非常 干净 的 数据 、 高 质量 
的 数据 ,花费 很 多 金钱 和 精力 来 确定 这 些 数据 是 好 数据 ,是 高 质量 的 数据 。 可 是 在 大 数据 时 
代 , 不 用 去 追求 那 种 特别 的 精确 性 , 当 宏观 上 失去 了 精确 性 ,微观 上 却 能 获得 准确 性 。 

最 后 是 相关 关系 。 因 为 更 加 混杂 ,因果 关系 转向 相关 关系 。 人 们 不 要 认为 可 以 真正 地 、 
地 找到 因果 关系 ,其 实 那 只 是 发 现 相关 关系 。 我 们 应 该 关注 是 什么 ,而 不 是 关注 为 
业界 通常 用 4 个 V(Volume、Variety、Value 及 Velocity) 来 概括 大 数据 的 特征 。 大 数据 
呈现 出 “4V 十 1C” 的 特点 。 

(1) 数据 体 量 巨 大 (Volume)。 通 过 各 种 设备 产生 的 海量 数据 ,其 数据 规模 极为 庞大 ， 
远大 于 目前 互联 网 上 的 信息 流量 ,PB 级 别 将 是 常态 。 截 至 目前 ,人 类 生产 的 所 有 印刷 材料 
的 数据 量 是 200PB(1PB 二 210TB), 而 历史 上 全 人 类 说 过 的 所 有 的 话 的 数据 量 大 约 是 5EB 
(1EB 二 210PB)。 当 前 ,典型 个 人 计算 机 硬盘 的 容量 为 TB 量 级 ,而 一 些 大 企业 的 数据 量 已 
经 接近 EB 量 级 。 

(2) 数据 类 型 繁多 (Variety)。 大 数据 种 类 繁多 ,在 编码 方式 、 数 据 格 式 、 应 用 特征 等 多 
个 方面 存在 差异 性 ,多 信息 源 并 发 形成 大 量 的 异 构 数据 ,这 种 类 型 的 多 样 性 让 数据 被 分 为 结 
构 化 数据 和 非 结构 化 数据 。 相 对 于 以 往 便 于 存储 的 以 文本 为 主 的 结构 化 数据 , 非 结构 化 数 
据 越 来 越 多 ,包括 网 络 日 志 、 音 频 、 视 频 、 图 片 、 地 理 位 置信 息 等 ,这 些 多 类 型 的 数据 对 数据 的 
处 理 能 力 提出 了 更 高 要 求 。 

(3) 价值 密度 低 CValue)。 价 值 密度 的 高 低 与 数据 总 量 的 大 小 成 反比 ,大 数据 量 反而 价 
值 密度 低 。 以 视频 为 例 ,一 部 时 长 1 小 时 的 视频 ,在 连续 不 间断 的 监控 中 ,有 用 数据 可 能 仅 
有 一 两 秒 。 如 何 通过 强大 的 机 器 算法 更 迅速 地 完成 数据 的 价值 提纯 ?成 为 目前 大 数据 背景 
下 下 待 解决 的 难题 。 

(4) 处 理 速度 快 (Velocity)。 涉 及 感知 ,传输 ,决策 .控制 开放 式 循环 的 大 数据 ,对 数据 
实时 处 理 有 着 极 高 的 要 求 , 这 是 大 数据 区 分 于 传统 数据 挖掘 的 最 显著 特征 。 根 据 IDC 的 
“数字 宇宙 ”的 报告 ,预计 到 2020 年 ,全 球 数 据 使 用 量 将 达到 35. 2ZB。 

(5) 数据 复杂 (Complexity)。 通 过 数据 库 处 理 持 久 存 储 的 数据 不 再 适用 于 大 数据 处 
理 , 需 要 有 新 的 方法 来 满足 异 构 数 据 统 一 接 人 和 实时 数据 处 理 的 需求 。 


1.1.2 大 数据 现状 及 趋势 


数据 价值 的 凸显 和 数据 获取 手段 .数据 处 理 技术 的 改进 是 大 数据 应 用 爆发 的 根源 。 随 
着 数据 生产 要 素 化 ,数据 科学 数据 科技 的 不 断 发 展 和 数据 价值 的 深度 挖掘 及 应 用 ,一 场 大 
数据 革命 正在 进行 , 它 将 带动 国家 战略 及 区 域 经 济 发 展 ,智慧 城市 建设 ,企业 转型 升级 ,社会 
管理 及 个 人 工作 、 生 活 等 各 个 领域 的 创新 和 变革 。 如 何 真 正 应 用 好 大 数据 ,发挥 大 数据 的 威 
力 , 是 当前 所 有 人 都 在 共同 研究 和 探索 的 问题 。 
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大 数据 在 数据 科学 理论 的 指导 下 ,改变 创新 模式 和 理念 ,各 个 国家 都 积极 推进 大 数据 的 
战略 性 产业 ,利用 大 数据 来 提高 国家 的 经 济 决策 和 社会 服务 能 力 ,保障 国家 安全 。 互 联网 、 
物 联 网 每 天 都 在 产生 大 量 的 数据 , 据 调 查 ,2015 年 有 近 200 亿 个 设备 连接 到 互联 网 上 ,这 些 
设备 不 仅 是 计算 机 、 智 能 终端 设备 ,更 有 汽车 .工厂 设备 数字 标牌 等 。 从 产业 拓展 的 角度 
看 ,大 数据 是 继 云 计 算 、 物 联网 之 后 的 一 个 新 产业 领域 ,其 蕴含 的 机 会 和 挑战 将 大 大 多 于 云 
计算 和 物 联网 。 大 数据 产业 (数据 产业 ) 具 有 很 强 的 蜂箱 效应 ,除了 产业 自身 的 经 济 蕴藏 量 
之 外 ,还 将 大 大 手动 其 他 产业 的 跨越 升级 。 

2009 年 ,联合 国 启动 “全 球 脉 动 计划 ”, 借 大 数据 推动 落后 地 区 发 展 。 美国 从 开放 政府 
数据 、 开 展 关键 技术 研究 和 推动 大 数据 应 用 三 方面 布局 大 数据 产业 。 美 国 在 开放 政府 上 非 
常 积 极 , 通 过 Data. gov 开放 37 万 个 数据 集 ,并 开放 网 站 的 API 和 源 代码 ,提供 上 千 个 数据 
应 用 。 除 了 推动 本 国政 府 数据 开放 ,美国 倡导 发 起 全 球 开放 政府 数据 运动 ,已 有 41 个 国家 
响应 。 美 国联 邦 政府 下 属 的 国防 部 能源 部 .卫生 总 署 等 7 部 委 联 合 推动 ,于 2012 年 3 月底 
发 布 了 大 数据 研发 专项 研究 计划 (Big Data Initiative) ,投入 2 亿美 元 用 于 研究 开发 科学 探 
索 、. 环 境 和 生物 医学 .教育 和 国家 安全 等 重大 领域 和 行业 所 急需 的 大 数据 处 理 技术 和 工具 ， 
把 大 数据 研究 上 升 为 国家 发 展 战略 。 

在 我 国 ,2011 年 以 来 ,中 国 计 算 机 学 会 、 中 国 通信 学 会 先后 成 立 了 大 数据 委员 会 ,研究 
大 数据 中 的 科学 与 工程 问题 。2015 年 9 月 国务 院 出 台 了 《促进 大 数据 发 展 行动 纲要 》, 通 过 
开放 、 产 业 和 安全 三 位 一 体 建设 数据 强国 。2016 年 3 月 我 国 发 布 的 “十 三 五 ”规划 纲要 又 对 
实施 网 络 强国 战略 “互联 网 十 ”行动 计划 、 大 数据 战略 等 作 了 部 署 。 实 施 国家 大 数据 战略 ， 
把 大 数据 作为 基础 性 战略 资源 ,全 面 实施 促进 大 数据 发 展 行动 ,加 快 推动 数据 资源 共享 开放 
和 开发 应 用 ,助力 产业 转型 升级 和 社会 治理 创新 。 全 面 推进 重点 领域 大 数据 高 效 采集 、 有 效 
整合 ,深化 政府 数据 和 社会 数据 关联 分 析 、 融 合 利 用 ,提高 宏观 调控 ,市 场 监 管 .社会 治理 和 
公共 服务 精准 性 和 有 效 性 。 

1.“ 大 数据 资源 ”成 为 重要 战略 资源 ,将 成 为 最 有 价值 的 资产 

互联 网 时 代 ,“ 资 源 ” 的 含义 正在 发 生 极 大 的 变化 , 它 不 仅仅 是 指 煤 、 石 油 、 矿 产 等 一 些 看 
得 见 , 摸 得 着 的 实体 ,大 数据 正在 演变 成 不 可 或 缺 的 战略 资源 ,数据 成 为 新 的 战略 制高点 ,成 
为 一 种 新 的 资产 类 别 , 就 像 货币 或 黄金 一 样 。 大 数据 已 经 被 视 为 一 种 资产 ,一 种 财富 、 一 种 
可 以 被 衡量 和 计算 的 价值 。 一 个 国家 拥有 数据 的 规模 和 运用 数据 的 能 力 将 成 为 综合 国力 的 
重要 组 成 部 分 ,对 数据 的 占有 和 控制 也 将 成 为 国家 间 和 企业 间 新 的 争夺 焦点 。 

2.“ 大 数据 决策 ”成 为 一 种 新 决策 方式 

依据 大 数据 进行 决策 ,从 数据 中 获取 价值 ,让 数据 主导 决策 ,是 一 种 前 所 未 有 的 决策 方 
式 , 正 在 推动 着 人 类 信息 管理 准则 的 重新 定位 。 随 着 大 数据 分 析 和 预测 分 析 对 管理 决策 影 
响 力 的 逐渐 加 大 ,依靠 直觉 做 决定 的 状况 将 会 被 彻底 改变 。 

3.“ 大 数据 应 用 ”促进 信息 技术 与 各 行业 深度 融合 

有 专家 指出 ,大 数据 及 其 分 析 会 在 未 来 10 年 改变 几乎 每 一 个 行业 的 业务 功能 ,在 制造 
业 、 医 疗 与 健康 交通、 能 源 、 材 料 ` 商 业 和 服务 等 行业 领域 甚至 在 新 闻 传 媒 领 域 ,也 都 在 以 大 
数据 为 发 展 契机 ,加 速 这 些 行 业 与 信息 技术 的 深度 融合 。 大 数据 和 传统 商业 智能 融合 产生 
大 数据 商业 智能 ,从 而 形成 一 个 全 面 、 完 整 的 数据 价值 发 展 平台 。 大 数据 服务 提供 商 将 会 以 
更 加 定制 化 的 适用 于 各 行业 的 商业 智能 解决 方案 提供 大 数据 服务 ,在 业务 运营 智能 监控 、 精 


细 化 企业 运营 、 客 户 生 命 周期 管理 ,精细 化 营销 经营 分 析 和 战略 分 析 等 方面 得 到 更 好 地 
应 用 。 

4.“ 大 数据 开发 ”推动 新 技术 和 新 应 用 不 断 涌现 

大 数据 的 应 用 需求 是 大 数据 新 技术 开发 的 源泉 。 在 不 久 的 将 来 ,很 多 原来 单纯 依靠 人 
类 自身 判断 力 的 领域 应 用 ,将 被 计算 机 系统 的 数据 分 析 和 数据 挖掘 功能 普遍 改变 甚至 取代 。 
借助 这 些 创新 型 的 大 数据 应 用 ,数据 的 能 量 将 会 层 层 被 放大 。 比 如 ,下 一 代 互联 网 一 一 语义 
网 (Semantic Web) ,也 称 数据 网 (Web of Data) ,就 是 要 重新 构造 互联 网 ,打造 出 下 一 代 互 联 
网 。 基 于 大 数据 的 推荐 和 预测 将 逐步 流行 。 在 大 数据 时 代 , 依 靠 高 效能 计算 的 支持 ,深度 
学 习 与 大 数据 智能 有 望 成 为 大 数据 智能 处 理 的 核心 技术 。 智 能 机 器 会 依赖 于 对 捕 提 到 
的 数据 进行 分 析 来 做 判断 和 决策 ,利用 群体 智慧 与 众 包 计算 方式 将 使 大 数据 智能 成 为 可 
行 的 技术 。 

5.“ 大 数据 安全 ”上 升 为 国家 战略 安全 

在 大 数据 时 代 ,数据 安全 的 威胁 随时 都 有 可 能 发 生 。 各 种 国家 信息 基础 设施 和 重要 机 
构 所 承载 的 庞大 数据 信息 ,如 由 信息 网 络 系统 所 控制 的 石油 和 天 然 气管 道 ,水 电力、 交通、 
银行 ,金融 、 商 业 和 军事 等 ,都 有 可 能 成 为 被 攻击 的 目标 。 同 时 ,用 户 的 隐私 会 越 来 越 多 地 融 
入 各 种 大 数据 中 ,而 各 种 数据 来 源 之 间 的 无 颖 对 接 以 及 越 来 越 精准 的 数据 挖掘 技术 ,使 得 大 
数据 拥有 者 能 够 掌控 越 来 越 多 的 用 户 和 越 来 越 丰富 的 信息 。 在 挖掘 这 些 数据 价值 的 同时 ， 
隐私 泄露 存在 巨大 风险 。 由 于 系统 故障 、 黑 客人 侵 、 内 部 泄密 等 原因 ,数据 泄露 随时 可 能 发 
生 , 从 而 造成 难以 预 估 的 损失 。 大 数据 安全 问题 也 成 为 国家 安全 的 重要 组 成 部 分 。 

6. 大 数据 量 导 致 难以 应 对 的 存储 和 计算 量 

大 数据 时 代 , 如 何 有 效 、 快 速 ` 可 靠 地 存 取 这 些 日 益 增 长 的 海量 数据 成 了 关键 的 问题 。 
数据 量 的 指数 级 增长 对 不 断 扩容 的 存储 空间 提出 要 求 , 实 时 分 析 海量 的 数据 也 对 存储 计算 
能 力 提出 了 要 求 。 

未 来 ,大 数据 处 理 架构 的 多 样 化 模式 (如 Hadoop/MapReduce 框架 ` 实 时 流 计算 、 分 布 
式 内 存 计 算 、 图 计算 框架 将 并 存 融合 。 如 今 大 数据 存储 与 管理 的 技术 (如 分 布 式 文件 系统 、 
数据 索引 与 查询 技术 、 查 询 语言 .实时 / 流 式 数据 存储 管理 等 ) 虽 然 不 是 新 问题 ,但 大 数据 数 
量 大 、 速 度 快 等 特性 带 来 的 挑战 终 会 引起 大 数据 存储 与 管理 的 质变 。 随 着 大 数据 的 实时 处 
理 需 求 日 益 迫 切 ,内 存 计算 将 成 为 解决 实时 性 大 数据 处 理 问 题 、 提 高 处 理性 能 的 主要 手段 。 
大 数据 的 应 用 需求 多 种 多 样 , 而 大 数据 系统 架构 等 相关 技术 远 远 没有 达到 成 熟 和 稳定 的 程 
度 ,创新 引领 突破 的 技术 架构 与 应 用 模式 将 不 断 出 现 。 

7. 数据 将 越 来 越 开 放 , 数 据 共 享 联盟 化 

大 数据 越 关联 越 有 价值 , 越 开放 越 有 价值 。 大 数据 专家 委员 会 2012 年 讨论 了 数据 共享 
联盟 议题 。 目 前 ,由 于 数据 共享 联盟 的 生态 环境 尚未 建立 ,数据 共享 进展 缓慢 。 美 国 、 英 国 、 
澳大利亚 等 许多 国家 都 对 政府 和 公共 事业 的 数据 做 出 了 开放 。 国 内 的 一 些 城市 和 部 门 , 比 
如 北京 、 上 海 ,贵州 省 等 也 在 逐渐 开展 数据 开放 的 工作 ,数据 涉及 地 理 位 置 、 交 通 、 经 济 统计 
和 资格 资质 、 医 疗 信息 等 数据 。 随 着 数据 共享 联盟 能 够 逐步 壮大 ,数据 会 呈现 一 种 共享 的 趋 
势 ,不 同 领域 的 数据 联盟 将 出 现 ,成 为 产业 和 学 术 环 环 相 扣 的 支撑 环节 以 及 产业 发 展 的 核心 
环节 。 


8. 大 数据 促进 智慧 城市 发 展 ,为 智慧 城市 的 引擎 

随 着 大 数据 的 发 展 ,大 数据 在 智慧 城市 方面 将 发 挥 越 来 越 重 要 的 作用 。 由 于 人 口 聚集 
给 城市 带 来 了 交通 、 医 疗 、 建 筑 等 方面 的 压力 ,需要 城市 能 够 更 合理 地 进行 资源 布局 和 调配 ， 
而 智慧 城市 正 是 城市 治理 转型 的 最 优 解决 方案 。 智 慧 城市 相对 于 之 前 的 数字 城市 概念 ,最 
大 的 区 别 在 于 对 感知 层 获 取 的 信息 进行 了 智慧 的 处 理 , 其 核心 是 引入 了 大 数据 处 理 技术 。 
大 数据 是 智慧 城市 的 核心 智慧 引擎 。 智 慧 安 防 、 智 慧 交 通 、 智 慧 医疗 .智慧 城管 等 ,都 是 以 大 
数据 为 基础 的 智慧 城市 应 用 领域 。 

9. 大 数据 催生 新 的 工作 岗位 和 相应 专业 

大 数据 的 出 现 也 将 推出 一 批 新 的 就 业 岗 位 ,例如 ,大 数据 分 析 师 .数据 管理 专家 、 大 数据 
算法 工程 师 等 。 数 据 驱动 型 工作 将 呈现 爆炸 式 的 增长 ,具有 丰富 经 验 的 数据 分 析 人 才 将 成 
为 稀缺 的 资源 。 由 于 有 强烈 的 市 场 需求 ,高校 也 将 逐步 开设 大 数据 相关 的 专业 ,以 培养 相应 
的 专业 人 才 。 企 业 也 将 和 高 校 紧 密 合作 ,协助 高 校 联合 培养 大 数据 人 才 。 

10. 数据 科学 的 兴起 

各 类 学 科 的 交叉 以 及 传统 学 科 对 数据 的 广泛 依赖 产生 数据 科学 学 科 , 出 现 新 型 的 大 数 
据 系 统 评测 基准 。 同 时 ,类 似 波 色 子 的 发 现 , 数 学 .生物 ,物理 、 化 学 .材料 等 领域 在 一 定 程度 
上 依赖 数据 科学 才 取 得 了 突破 性 进展 。 数 据 科 学 作为 一 门 科学 ,还 有 很 多 问题 没有 解决 ,其 
至 还 有 很 多 问题 没有 被 提出 ,这 使 得 数据 科学 真正 成 为 一 个 支柱 学 科 尚 需 更 多 的 努力 。 

11. 大 数据 分 析 与 可 视 化 成 为 热点 

在 大 数据 务实 发 展 的 同时 ,行业 对 大 数据 发 展 趋势 的 需求 越 来 越 具 体 ,对 于 大 数据 查询 
和 分 析 的 实用 性 和 实效 性 ,以 及 能 否 获 得 决策 信息 将 变 得 非常 重要 ,决定 着 大 数据 应 用 的 成 
败 , 而 基于 大 内 存 的 计算 模式 或 将 成 为 大 数据 实时 处 理 的 重要 手段 。 对 大 数据 进行 分 析 后 ， 
为 了 方便 用 户 理解 ,需要 有 效 的 可 视 化 技术 ,使 得 大 数据 分 析 及 其 可 视 化 技术 将 成 为 热点 。 
数据 可 视 化 技术 作为 大 数据 时 代 的 显 学 ,包括 交互 式 的 展示 和 超大 图 的 动态 化 展示 尚 有 许 
多 问题 需要 解决 。 

12. 大 数据 生态 环境 逐步 完善 

如 今 , 大 数据 的 良性 生态 环境 正在 逐步 完善 过 程 中 ,大 数据 与 云 计算 、 物 联网 、 移 动 互 联 
网 等 热点 新 兴 计算 相互 交融 ,大 数据 的 发 展 越 来 越 务实 。 在 核心 技术 方面 ,从 笼统 的 基于 大 
数据 的 智能 和 革命 性 方法 , 变 为 4 个 指向 性 非常 明确 的 技术 趋势 预测 , 即 有 别 于 Hadoop 的 
多 模式 架构 并 存 、 大 数据 可 视 化 ,推荐 和 预测 、 深 度 学 习 。 在 技术 生态 方面 ,开源 成 为 主流 ， 
大 数据 安全 和 隐私 问题 ,数据 科学 的 兴起 依然 得 到 高 度 关 注 。 在 产业 生态 方面 ,从 笼统 的 
“更 大 的 数据 ” 变 为 着 重 关注 大 数据 的 价值 和 应 用 。 价 值 和 应 用 自然 会 带 来 战略 性 产业 地 
位 ,大 数据 生态 环境 逐步 完善 。 


1.1.3 大 数据 时 代 面 临 的 技术 问题 


当今 ,大 数据 的 到 来 已 向 人 们 展现 了 它 为 学 术 . 工 业 和 政府 带 来 的 巨大 机 遇 。 与 此 同 
时 ,大 数据 也 面临 需要 解决 以 下 重要 的 技术 问题 。 

1. 非 结 构 化 和 半 结 构 化 数据 处 理 问 题 

(1) 大 数据 的 特征 表示 需要 人 研究。 大 数据 中 ,结构 化 数据 只 占 15% 左 右 ,其 余 的 85% 
都 是 非 结构 化 的 数据 。 如 今 非 结构 化 和 半 结 构 化 数据 的 个 体 表 现 、 一 般 性 特征 和 基本 原理 





尚 不 清晰 ,此 外 ,大 数据 的 不 确定 性 表现 在 高 维 、 多 变 和 强 随 机 性 等 方面 。 这 些 问题 的 突破 
是 实现 大 数据 知识 发 现 的 前 提 和 关键 。 设 定 一 种 半 结 构 化 或 非 结 构 化 数据 ,比如 图 像 , 如 何 
把 它 转 化 成 多 维 数据 表 、 面 向 对 象 的 数据 模型 或 者 直接 基于 图 像 的 数据 模型 都 是 需要 研究 
的 内 容 。 从 长 远 角度 来 看 ,依照 大 数据 的 个 体 复杂 性 和 随机 性 所 带 来 的 挑战 将 促使 大 数据 
数学 结构 的 形成 ,从 而 导致 大 数据 统一 理论 的 完备 。 

(2) 由 于 大 数据 所 具有 的 半 结 构 化 和 非 结 构 化 特点 ,基于 大 数据 的 数据 挖掘 所 产生 的 
结构 化 的 粗糙 知识 (潜在 模式 ) 也 伴 有 一 些 新 的 特征 。 这 些 结构 化 的 粗糙 知识 可 以 被 主观 知 
识 加 工 处 理 并 转化 ,生成 半 结 构 化 和 非 结 构 化 的 智能 知识 。 寻 求 "智能 知识 ”反映 了 大 数据 
研究 的 核心 价值 。 如 果 把 通过 数据 挖掘 提取 ”粗糙 知识 ”的 过 程 称 为 “一 次 挖掘 ?过 程 ,那么 
将 粗糙 知识 与 被 量化 后 的 主观 知识 ,包括 具体 的 经 验 . 常 识 . 本 能 情境 知识 和 用 户 偏好 , 相 
结合 而 产生 * 智 能 知识 ”的 过 程 就 叫 作 二 次 挖掘 ,从 一 次 挖掘 到 二 次 挖掘 类 似 事物 量 到 质 的 
飞跃 。 已 知 的 最 优化 数据 包 络 分 析 、 期 望 理论 ,管理 科学 中 的 效用 理论 可 以 被 应 用 到 研究 
如 何 将 主观 知识 融合 到 数据 挖掘 产生 的 粗糙 知识 的 二 次 挖掘 过 程 中 。 同 时 ,大 数据 的 复杂 
形式 导致 许多 对 粗糙 知识 的 度量 和 评估 相关 的 研究 问题 。 

2. 数据 相关 管理 技术 架构 问题 

(1) 传统 的 数据 库 部 署 不 能 处 理 TB 级 别 的 数据 ,快速 增长 的 数据 量 超越 了 传统 数据 
库 的 管理 能 力 。 对 结构 化 数据 、 半 结构 化 和 非 结 构 化 数据 的 兼容 以 及 如 何 构 建 分 布 式 的 数 
据 仓 库 , 并 可 以 方便 扩展 大 量 的 服务 器 ,成 为 挑战 。 

(2) 大 数据 需要 实时 处 理 数据 ,大 数据 实时 处 理 需 要 进行 分 钟 级 甚至 是 秒 级 计算 。 海 
量 的 数据 需要 很 好 的 网 络 架 构 ,需要 强大 的 数据 中 心 来 支撑 ,数据 中 心 的 运 维 工 作 也 将 成 为 
关键 。 在 保证 数据 稳定 、 支 持 高 并 发 的 同时 ,减少 服务 器 的 低 负载 情况 ,成 为 海量 数据 中 心 
运 维 的 一 个 重点 工作 。 对 编程 模型 的 扩展 性 与 存储 模型 的 兼容 性 和 互 操 作 性 都 有 要 求 。 

3. 数据 安全 技术 问题 

在 大 数据 时 代 , 数 据 资源 的 开放 共享 已 经 成 为 在 数据 大 战 中 保持 优势 的 关键 。 商 业 数 
据 和 个 人 数据 的 共享 应 用 ,不 仅 能 促进 相关 产业 的 发 展 ,也 能 给 我 们 的 生活 带 来 巨大 的 便 
利 ,但 也 对 数据 存储 的 物理 安全 性 、 数 据 的 多 副本 与 容 灾 机 制 提出 了 更 高 的 要 求 。 

同时 ,开放 与 隐私 如 何平 衡 ,也 是 大 数据 开放 过 程 中 面临 的 最 大 难题 。 

4. 大 数据 处 理 技 术 复 杂 

当前 ,大 数据 的 处 理 技术 纷繁 复杂 ,虽然 HiveSQL 有 很 大 市 场 .但 Hive 的 数据 正确 性 
和 Bug 仍然 比较 多 ; Hadoop MapReduce 过 于 复杂 灵活 , 写 出 高 效 Job 比较 困难 ; Pig、 
FlumeJava 等 分 布 式 编程 模型 技术 的 门槛 较 高 ,推广 比较 困难 。 在 数据 挖掘 和 图 算法 领域 
虽然 涌现 出 了 Mahout、Hama、GoldenOrb 等 大 量 开源 平台 ,但 都 不 够 成 熟 。 基 于 Hadoop 
的 工作 流 系 统 Oozie 和 数据 传输 系统 Sqoop 都 需要 开发 人 员 单独 部 署 。 目 前 大 数据 的 处 理 
平台 以 Hadoop 为 主 ,都 是 自 建 Hadoop 集群 或 使 用 Amazon Elastic MapReduce 服务 ,而 
Google 的 BigQuery 由 于 种 种 限制 推广 得 并 不 理想 。 上 述 的 技术 都 是 各 有 利 整 ,大 数据 处 
理 技术 还 没有 一 个 完美 的 解决 方案 。 

5. 数据 的 碎片 化 问题 

企业 内 部 的 数据 常常 散落 在 不 同 部 门 ,而 且 数 据 的 存储 与 处 理 技术 也 不 一 样 , 如 何 将 不 
同 部 门 的 数据 打通 ,并 且 实现 技术 和 工具 共享 ,如何 处 理 大 数据 的 传输 以 及 与 在 线 和 实时 分 





析 系 统 的 整合 ,如 何 为 数据 和 应 用 的 提供 者 和 使 用 者 提供 一 个 交易 平台 和 生态 环境 。 如 何 
确保 系统 可 运 维和 管理 ,做 到 远程 维修 ,都 存在 许多 技术 问题 。 


1.2 云 计 算 与 大 数据 挖掘 


1.2.1 云 计 算 的 定义 与 特点 

1. 云 计算 的 定义 

对 云 计算 的 定义 有 多 种 说 法 。 现 阶段 广 为 接 受 的 是 美国 国家 标准 与 技术 研究 院 
(NIST) 的 定义 : 云 计算 (Cloud Computing) 是 一 种 按 使 用 量 付费 的 模式 ,这 种 模式 提供 可 
用 的 便捷 的 按 需 的 网 络 访问 ,进入 可 配置 的 计算 资源 共享 池 ( 资 源 包括 网 络 、 服 务 器 、 存 储 、 
应 用 软件 .服务 ) ,这 些 资源 能 够 被 快速 提供 ,只 需 投 入 很 少 的 管理 工作 ,或 与 服务 供应 商 进 
行 很 少 的 交互 。 

云 计算 是 一 种 新 兴 的 商业 计算 模型 。 它 将 计算 任务 分 布 在 大 量 计算 机 构成 的 资源 池 
上 ,使 各 种 应 用 系统 能 够 根据 需要 获取 计算 力 、 存 储 空间 和 各 种 软件 服务 。 云 是 网 络 、 互 联 
网 的 一 种 比喻 说 法 ,用 来 表示 互联 网 和 底层 基础 设施 的 抽象 。 云 计算 拥有 每 秒 10 万 亿 次 的 
运算 能 力 , 拥 有 这 么 强大 的 计算 能 力 可 以 模拟 核 爆 炸 、 预 测 气候 变化 和 市 场 发 展 趋势 。 用 户 
通过 计算 机 笔记本、 手机 等 方式 接 入 数据 中 心 , 按 自己 的 需求 进行 运算 。 

2. 云 计 算 的 特点 

(1) 集成 的 超大 规模 计算 资源 提高 了 设备 计算 能 力 。 云 计算 把 大 量 计算 资源 集中 到 一 
个 公共 资源 池 中 ,通过 多 主 租用 的 方式 共享 计算 资源 。“ 云 "具有 相当 的 规模 ,企业 私有 云 一 
般 拥 有 数 百 上 千 台 服务 器 .“ 云 ”能 赋予 用 户 前 所 未 有 的 计算 能 力 。 

(2) 分 布 式 数 据 中 心 保 证 系统 容 灾 能 力 。 分 布 式 数 据 中心 可 将 云端 的 用 户 信息 备份 到 
地 理 上 相互 隔离 的 数据 库 主 机 中 ,甚至 用 户 自己 也 无 法 判断 信息 的 确切 备份 地 点 。 该 特点 
不 仅仅 提供 了 数据 恢复 的 依据 ,也 使 得 网 络 病 毒 和 网 络 黑客 的 攻击 失去 目的 性 而 变 成 徒劳 ， 
大 大 提高 了 系统 的 安全 性 和 容 灾 能 力 。 

(3) 软 硬 件 相互 隔离 ,减少 设备 依赖 性 并 具有 高 可 靠 性 。 虚 拟 化 层 将 云 平台 上 方 的 应 
用 软件 和 下 方 的 基础 设备 隔离 开 来 。 用 户 只 能 看 到 虚拟 化 层 中 虚拟 出 来 的 各 类 设备 。 这 种 
架构 减少 了 设备 依赖 性 ,也 为 动态 的 资源 配置 提供 可 能 。“ 云 ”使 用 了 数据 多 副本 容错 、 计 算 
节点 同 构 可 互 换 等 措施 来 保障 服务 的 高 可 靠 性 ,使 用 云 计 算 比 使 用 本 地 计算 机 可 靠 。 

(4) 平台 模块 化 设计 体现 高 可 扩展 性 与 通用 性 。 云 计算 不 针对 特定 的 应 用 ,“ 云 ”的 规 
模 可 以 动态 伸缩 ,满足 应 用 和 用 户 规模 增长 的 需要 ,同一 个 “ 云 " 可 以 同时 支撑 不 同 的 应 用 运 
行 。 目 前 主流 的 云 计算 平台 均 根据 SPI 架构 在 各 层 集成 功能 各 异 的 软 硬 件 设备 和 中 间 件 软 
件 ,大 量 中 间 件 软件 和 设备 提供 通用 接口 ,允许 用 户 添加 本 层 的 扩展 设备 。 部 分 云 与 云 之 间 
提供 对 应 接口 ,可 在 不 同 云 之 间 进行 数据 迁移 。 

(5) 虚拟 资源 池 为 用 户 提供 弹性 服务 。 云 计算 支持 用 户 在 任意 位 置 、 使 用 各 种 终端 获 
取 应 用 服务 。 在 云 计算 环境 中 , 既 可 以 对 规律 性 需求 通过 事先 预测 事先 分 配 ,也 可 根据 事先 
设 定 的 规则 进行 实时 调整 。 弹 性 的 云 服 务 可 帮助 用 户 在 任意 时 间 得 到 满足 需求 的 计算 资 
源 。 在 非 恒 定 需求 的 应 用 ,如 对 需求 波动 很 大 、 阶 段 性 需求 等 ,具有 非常 好 的 应 用 效果 。 





(6) 按 需 付费 降低 使 用 成 本 。“ 云 ”是 一 个 庞大 的 资源 池 , 可 按 需 购买 。 作 为 云 计算 的 
代表 , 按 需 提供 服务 、 按 需 付 费 是 目前 各 类 云 计算 服务 中 不 可 或 缺 的 一 部 分 。 对 用 户 而 言 ， 
云 计算 不 但 省 去 了 基础 设备 的 购置 运 维 费 用 ,具有 低 成 本 优势 ,而 且 能 根据 企业 成 长 的 需要 
不 断 扩展 订购 的 服务 ,不 断 更 换 更 加 适合 的 服务 ,实现 了 按 需 服务 ,提高 了 资金 的 利用 率 。 

(7) 潜在 的 危险 性 。 云 计算 服务 除了 提供 计算 服务 外 ,还 必然 提供 存储 服务 。 云 计算 
服务 当前 垄断 在 私人 机 构 企 业 手 中 , 仅 能 够 提供 商业 信用 。 另 外 , 云 计算 中 的 数据 对 于 数据 
所 有 者 以 外 的 其 他 用 户 是 保密 的 ,但 是 对 提供 云 计算 的 商业 机 构 而 言 却 是 毫 无 秘密 可 言 。 
如 果 是 商业 机 构 和 政府 机 构 选择 云 计算 服务 ,特别 是 国外 机 构 提 供 的 云 计 算 服 务 时 ,这 些 潜 
在 的 危险 成 为 不 得 不 考虑 的 一 个 重要 问题 。 

1.2.2 云 计 算 与 大 数据 

云 计算 是 基于 互联 网 的 相关 服务 的 增加 、 使 用 和 交付 模式 ,通常 涉及 通过 互联 网 来 提供 
动态 易 扩 展 且 经 常 是 虚拟 化 的 资源 。 大 数据 是 继 云 计算 、 物 联网 之 后 IT 产业 又 一 次 颠覆 
性 的 技术 变革 。 大 数据 指 的 是 所 涉及 的 资料 量规 模 巨 大 到 无 法 通过 目前 主流 软件 工具 ,在 
合理 时 间 内 达到 撕 取 ,管理 处理, 并 整理 成 为 帮助 企业 经 营 决 策 更 积极 目的 的 信息 。 云 计 
算 与 大 数据 一 直 是 行业 内 关注 的 两 大 焦点 ,两 者 密 不 可 分 。 

(1) 从 理论 角度 来 看 ,二 者 属于 不 同 层次 。 云 计算 研究 的 是 计算 问题 ,大 数据 研究 的 是 
巨 量 数据 处 理 问 题 ,而 巨 量 数据 处 理 依然 属于 计算 问题 的 研究 范围 。 因 此 ,从 这 个 角度 来 
看 ,大 数据 是 云 计算 的 一 个 子 领域 。 云 计算 相当 于 我 们 的 计算 机 和 操作 系统 ,将 大 量 的 硬件 
资源 虚拟 化 之 后 再 进行 分 配 使 用 , 云 计算 就 是 硬件 资源 的 虚拟 化 ; 大 数据 相当 于 海量 数据 
的 “数据 库 ”, 大 数据 就 是 海量 数据 的 高 效 处 理 。 云 计算 作为 计算 资源 的 底层 ,支撑 着 上 层 的 
大 数据 处 理 , 而 大 数据 的 发 展 趋势 是 实时 交互 式 的 查询 效率 和 分 析 能 力 。 

(2) 从 技术 上 看 ,大 数据 与 云 计算 的 关系 就 像 一 枚 硬币 的 正 反面 一 样 密 不 可 分 。 大 数 
据 无 法 用 单 台 的 计算 机 进行 处 理 , 必 须 采用 分 布 式 计算 架构 。 它 的 特色 在 于 对 海量 数据 的 
挖掘 ,但 它 必须 依托 云 计算 的 分 布 式 处 理 、 分 布 式 数 据 库 、 云 存储 和 虚拟 化 技术 。 云 计算 与 
大 数据 之 间 是 相辅相成 ,相得益彰 的 关系 。 大 数据 挖掘 处 理 需 要 云 计算 作为 平台 ,而 大 数据 
涵盖 的 价值 和 规律 则 能 够 使 云 计算 更 好 地 与 行业 应 用 结合 并 发 挥 更 大 的 作用 。 云 计算 将 计 
算 资 源 作 为 服务 支撑 大 数据 的 挖掘 ,而 大 数据 的 发 展 趋势 则 是 对 实时 交互 的 海量 数据 查询 、 
分 析 提 供 了 各 自 需要 的 价值 信息 。 云 计算 技术 就 是 一 个 容器 ,大 数据 正 是 存放 在 这 个 容器 
中 的 水 ,大 数据 要 依靠 云 计 算 技 术 来 进行 存储 和 计算 。 将 云 计算 和 大 数据 相 结合 ,人 们 就 可 
以 利用 高 效 、 低 成 本 的 计算 资源 分 析 海量 数据 的 相关 性 ,快速 找到 共性 规律 。 

(3) 从 应 用 角度 来 看 ,大 数据 是 云 计算 的 应 用 案例 之 一 , 云 计 算是 大 数据 的 实现 工具 之 
一 。 在 概念 上 , 云 计算 与 大 数据 有 所 不 同 , 云 计算 改变 了 IT, 而 大 数据 则 改变 了 业务 。 然 而 
大 数据 必须 有 云 作为 基础 架构 ,才能 得 以 顺畅 运营 。 云 计算 与 大 数据 的 目标 受众 不 同 , 云 计 
算是 卖 给 CIO 的 技术 和 产品 ,是 一 个 进 阶 的 IT 解决 方案 。 而 大 数据 是 卖 给 CEO、 卖 给 业务 
层 的 产品 ,大 数据 的 决策 者 是 业务 层 。 云 计算 改变 数据 架构 ,大 数据 改变 商业 企业 运作 模 
式 , 云 计算 与 大 数据 相互 依托 、 相 互 促进 共同 发 展 。 本 质 上 , 云 计 算 与 大 数据 的 关系 是 静 与 
动 的 关系 ; 云 计算 强调 的 是 计算 ,这 是 动 的 概念 ; 而 大 数据 则 是 云 计算 的 对 象 ,是 静 的 概 
念 。 云 计算 与 大 数据 密 不 可 分 , 云 计算 为 大 数据 处 理 提供 了 一 个 很 好 的 平台 。 

















1.2.3 大 数据 挖掘 


1. 传统 数据 控 握 面临 的 问题 

传统 的 数据 挖掘 (Data Mining) 就 是 从 大 量 的 不 完全 的 有 噪声 的 模糊 的 随机 的 实际 应 
用 数据 中 提取 隐 含 在 其 中 的 人 们 事先 不 知道 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 这 个 定 
义 包括 好 几 层 含义 : 数据 源 必须 是 真实 的 大 量 的 含 噪声 的 ,发 现 的 是 用 户 感 兴趣 的 知识 ; 
知识 要 可 接受 、 可 理解 ,可 运用 ,并 不 要 求 发 现 放 之 四 海 丝 准 的 知识 , 仅 支 持 特定 的 发 现 问 
题 。 与 数据 挖掘 相近 的 同义词 有 数据 融合 .人 工 智 能 、 商 务 智 能 、 模 式 识别 .机 器 学 习 、 知 识 
发 现 , 数 据 分 析 和 决策 支持 等 。 

数据 挖掘 涉及 的 技术 方法 很 多 ,有 多 种 分 类 法 。 根 据 挖掘 任务 可 分 为 分 类 或 预测 模型 
发 现 , 数 据 总 结 、 聚 类 、 关 联 规则 发 现 , 序 列 模式 发 现 ,依赖 关系 或 依赖 模型 发 现 ,异常 和 趋势 
发 现 , 等 等 ; 根据 挖掘 对 象 可 分 为 关系 数据 库 、 面 向 对 象 数据 库 、 空 间 数据 库 、 时 态 数据 库 、 
文本 数据 源 、 多 媒体 数据 库 、 异 质数 据 库 、 遗 产 数据 库 以 及 万 维 网 WWW; 根据 挖 所 方法 可 
粗 分 为 机 器 学 习 方法 、 统 计 方 法 、 神 经 网 络 方法 和 数据 库 方法 。 

传统 的 数据 挖掘 在 大 数据 环境 下 面临 的 挑战 有 以 下 儿 个 方面 。 

(1) 大 数据 集 的 挑战 。 如 今 缺 少 大 数据 复杂 度 、 宛 余 度 的 度量 方法 ,缺少 确保 近似 算法 
精度 分 析 方 法 ,以 及 缺少 根据 分 布 知识 对 大 数据 进行 抽样 的 方法 。 

(2) 数据 复杂 性 的 挑战 。 大 数据 种 类 繁多 ,不 仅 需 要 面 对 传统 的 结构 化 数据 ,而 且 必 须 
面 对 占 80% 的 非 结 构 化 数据 与 半 结 构 化 数据 。 

(3) 数据 动态 增长 的 挑战 。 因 为 大 数据 分 析 决 策 对 数据 实时 处 理 有 着 极 高 的 要 求 , 缺 
少 分 布 式 并 行 计算 环境 下 的 大 数据 分 析 的 基本 策略 ,与 算法 机 理 相 结 合 的 并 行 策略 以 及 对 
低 复杂 度 、 精 度 可 控 的 新 的 大 数据 分 析 算 法 。 

(4) 大 数据 挖掘 的 分 类 算法 、 聚 类 、 关 联 分 析 、 集 群 、 孤 立 点 分 析 等 算法 的 研究 ,以 及 大 
数据 分 析 平 台 研发 。 

(5) 语义 引擎 的 开发 。 语 义 引擎 需要 有 足够 的 人 工 智 能 足以 从 数据 中 主动 地 提取 信 
息 。 语 言 处 理 技 术 包 括 机 器 翻译 、 情 感 分 析 、 和 与 情 分 析 、 智 能 输入 、 问 答 系统 等 ,并 可 进行 数 
据 可 视 化 分 析 ,数据 图 像 化 可 以 让 数据 自己 说 话 , 让 用 户 直观 地 感受 到 结果 ,无 论 对 普通 用 
户 还 是 数据 分 析 专 家 ,都 是 最 基本 的 功能 。 

2. 大 数据 挖掘 

大 数据 挖掘 是 指 从 大 数据 集中 寻找 其 规律 的 技术 。 我 们 将 “大 数据 集 ”强调 为 大 数据 挖 
掘 的 对 象 。 由 于 大 数据 具有 高 价值 . 低 密度 的 特性 ,其 规律 不 是 显而易见 的 ,而 是 隐 含 在 大 
数据 之 中 ,需要 用 新 的 方法 和 技术 去 寻找 和 挖掘 ,对 挖掘 到 的 “规律 ?没有 做 任何 描述 或 限 
制 , 因 此 大 数据 的 价值 需要 在 大 数据 的 应 用 中 去 实现 。 

大 数据 挖掘 技术 改进 已 有 数据 挖掘 和 机 器 学 习 技 术 , 开 发 数据 网 络 挖掘 、 特 异 群 组 控 
气 、` 图 挖掘 等 新 型 数据 挖掘 技术 ,突破 基于 对 象 的 数据 连接 .相似 性 连接 等 大 数据 融合 技术 ， 
突破 用 户 兴趣 分 析 、 网 络 行为 分 析 、 情 感 语义 分 析 等 面向 领域 的 大 数据 挖掘 技术 。 

在 当今 时 代 , 物 联网 担当 了 数据 采集 的 角色 , 云 存储 担当 了 数据 归 集 和 存储 的 角色 ,大 
数据 技术 负责 收集 来 的 大 数据 的 智能 挖掘 分 析 工 作 ,而 互联 网 技术 ,包括 4G、 光 纤 等 新 技术 
则 是 信息 传输 交换 的 通道 ,是 信息 时 代 的 “高 速 公路 ”"。4G 将 使 大 数据 在 采集 ,传输 和 应 用 





端 发 生 重大 变化 。 信 息 过 载 压 力 的 增 大 和 大 数据 体 量 的 快速 膨胀 ,不仅 推动 数据 存储 、 计 算 
和 分 析 技 术 的 革新 ,也 催生 了 大 数据 产业 链 上 的 商机 。 

3. 大 数据 挖 振 面临 的 技术 挑战 

(1) 增加 样本 容易 ,降低 算法 复杂 度 难 。 大 数据 不 是 全 数据 ,大 数据 的 真正 价值 不 在 于 
它 的 大 ,而 在 于 它 的 全 面 需 正确 对 待 样本 与 数据 量 大 小 的 问题 .空间 维度 上 的 多 角度 、 多 层 
次 信息 的 交叉 复 现 和 时 间 维 度 上 的 与 人 或 社会 有 机 体 的 活动 相关 联 的 信息 的 持续 呈现 。 针 
对 具体 问题 ,如 何 降 低 太 多 的 噪声 与 算法 复杂 度 ,提高 挖掘 的 精确 度 并 进行 正确 地 评估 都 是 
需要 解决 的 问题 。 

(2) 大 数据 时 代 , 传 统 的 随机 抽样 被 * 所 有 数据 的 汇 拢 ?所 取代 ,人 们 的 思维 决断 模式 ， 
可 直接 根据 * 是 什么 ”来 下 结论 。 由 于 这 样 的 结论 剔除 了 个 人 情绪 ,心理 动机 、 抽 样 精确 性 等 
因素 的 干扰 ,因此 将 更 精确 ,更 有 预见 性 。 不 过 ,由 于 大 数据 过 于 依靠 数据 的 汇集 ,一 旦 数据 本 
身 有 问题 ,就 很 可 能 出 现 “ 灾 难 性 大 数据 ”, 即 因为 数据 本 身 的 问题 ,而 导致 错误 的 预测 和 决策 。 

(3) 一 般 的 数据 分 析 应 用 程序 无 法 很 好 地 处 理 大 数据 ,必须 专门 针对 大 数据 的 管理 和 
分 析 工 具 , 这 些 应 用 程序 运行 在 集群 存储 系统 上 。 大 数据 存储 管理 系统 应 该 是 可 扩展 的 , 足 
以 满足 未 来 的 存储 需求 ,并 且 解决 复杂 结构 化 、 半 结构 化 和 非 结构 化 大 数据 管理 与 处 理 
技术 ,大 数据 的 可 存储 可 表示 、 可 处 理 、 可 靠 性 及 有 效 传输 等 关键 问题 。 开 发 可 靠 的 分 布 式 
文件 系统 (DFS) ,计算 与 存储 融合 、 去 元 余 及 高 效 低 成 本 的 大 数据 存储 技术 ,突破 分 布 式 非 
关系 型 大 数据 管理 与 处 理 技术 、 异 构 数据 的 数据 融合 与 组 织 技术 .大 数据 建 模 技术 及 大 数据 
索引 技术 等 。 

4. 大 数据 挖 据 的 要 点 

虽然 大 数据 挖掘 与 一 般 的 数据 挖掘 在 挖掘 过 程 、 算 法 等 方面 差异 不 大 ,但 由 于 大 数据 在 
广度 和 量度 上 的 特殊 性 ,大 数据 的 挖掘 在 实现 上 也 会 有 所 不 同 。 要 做 好 大 数据 的 挖掘 ,除了 
掌握 一 般 的 数据 挖掘 方法 ,另外 还 要 把 握 以 下 几 个 大 数据 挖掘 的 要 点 。 

1) 大 数据 思维 

大 数据 用 数据 核心 .全 数据 样本 的 思维 方式 思考 问题 ,解决 问题 ,由 “功能 是 价值 ”转变 
为 “数据 是 价值 ”。 大 数据 思维 中 ,由 寻求 精确 度 转向 寻求 高 效率 ,由 寻求 因果 性 转向 寻求 相 
关 性 ,由 寻找 确定 性 转向 寻找 概率 性 ,可 以 容忍 不 精确 的 数据 结果 。 只 要 大 数据 分 析 指 出 可 
能 性 ,就 会 有 相应 的 结果 ,这 就 是 大 数据 思维 。 开 放 、 共 享 、 合 作 思维 及 创造 性 思维 是 大 数据 
思维 方式 的 特性 ,通过 对 数据 的 重组 .扩展 和 再 利用 ,突破 原 有 的 框架 ,开拓 新 领域 ,确立 新 
决策 ,发 现 隐 藏 在 表面 之 下 的 数据 价值 。 

2) 大 数据 的 收集 与 集成 

大 数据 挖掘 在 收集 和 集成 数据 方面 的 要 点 就 是 理 清和 挖掘 与 目标 可 能 有 关联 的 数据 ， 
然后 将 这 些 关联 数据 收集 起 来 。 当 前 ,两 个 技术 使 得 大 数据 的 收集 开始 变 得 容易 : 一 是 各 
种 传感器 的 廉价 化 和 部 署 覆盖 率 的 大 大 提高 。 例 如 ,我 们 最 熟悉 的 就 是 遍布 身边 的 摄像 头 。 
二 是 互联 网 ,如 今 接 人 互联 网 的 终端 越 来 越 便宜 ,在 人 群 中 的 覆盖 率 不 断 提 高 ,以 至 于 我 们 
拥有 了 一 个 可 以 覆盖 大 部 分 人 口 的 传感器 网 络 。 集 成 数据 就 是 将 收集 的 数据 统一 管理 ,将 
分 散 的 数据 趋 于 集中 管理 ,集成 的 程度 越 高 ,对 后 续 的 挖掘 越 有 利 。 

3) 大 数据 的 降 维 

对 大 数据 进行 处 理 时 ,通常 要 先 将 数据 进行 降 维 ,缩减 数据 量 使 它 能 够 适应 计算 机 的 处 











理 能 力 。 大 数据 隆 维 的 要 点 是 根据 数据 挖掘 的 目标 数据 量 、 计 算 机 的 处 理 能 力 、 对 时 间 的 
要 求 等 多 方面 的 因素 ,对 数据 进行 分 级 降 维 ,首先 是 通过 抽样 的 方式 对 数据 进行 降 维 ,第 二 
层次 是 抽取 有 用 的 变量 ,第 三 层次 根据 经 典 的 降 维 方法 进行 数据 的 变形 降 维 。 这 是 一 种 分 
级 形式 的 逐 层 降 维 方式 。 另 外 一 种 降 维 方式 是 分 散 降 维 , 就 是 将 大 数据 需要 映射 为 小 的 单 
元 进行 计算 ,再 对 所 有 的 结果 进行 整合 , 即 MapReduce 算法 框架 。 

4) 大 数据 的 分 布 式 与 并 行 处 理 

如 果 数 据 经 降 维 后 依然 很 大 ,或 者 数据 不 适合 降 维 ,或 者 数据 对 响应 时 间 要 求 较 高 , 那 
么 对 数据 进行 处 理 时 需要 考虑 分 布 式 和 并 行 计算 。 

并 行 计算 可 分 为 时 间 上 的 并 行 和 空间 上 的 并 行 。 时 间 上 的 并 行 就 是 指 流水 线 技术 , 空 
间 上 的 并 行 则 是 指 用 多 个 处 理 器 并 发 地 执行 计算 。 并 行 计算 主要 研究 的 是 空间 上 的 并 行 问 
题 。 空 间 上 的 并 行 导致 两 类 并 行 机 的 产生 , 即 单 指令 流 多 数据 流 (SIMD) 和 多 指令 流 多 数 
据 流 (MIMD)。 并 行 计 算是 指 同时 使 用 多 种 计算 资源 解决 计算 问题 的 过 程 。 例 如 
MapReduce, 为 执行 并 行 计算 ,计算 资源 应 包括 一 台 配 有 多 并 行 处 理 机 的 计算 机 一 个 与 网 
络 相连 的 计算 机 专 有 编号 ,或 者 两 者 结合 使 用 。 并 行 计算 的 主要 目的 是 快速 解决 大 型 且 复 
杂 的 计算 问题 。 

分 布 式 计算 研究 如 何 把 一 个 需要 非常 巨大 的 计算 能 力 才能 解决 的 问题 分 解 成 许多 小 的 
部 分 ,然后 把 这 些小 部 分 分 配给 许多 计算 机 进行 处 理 ,最 后 把 这 些 计算 结果 综合 起 来 得 到 最 
终 的 结果 。 这 样 可 以 节约 整体 计算 时 间 , 大 大 提高 计算 效率 。 

5) 大 数据 挖掘 算法 

大 数据 挖掘 需要 的 算法 包含 了 传统 的 关联 分 析 、 和 矩阵 分 析 、 异 常 分 析 、 演 变 分 析 等 。 同 
时 ,大 数据 挖掘 受到 算法 的 复杂 度 .并 行 度 以 及 数据 存储 速度 的 制约 。 大 数据 挖掘 要 求 能 够 
处 理 高 维 、 多 模 态 .多 类 的 大 数据 。 对 于 大 数据 挖掘 算法 ,大 体 将 其 具体 分 为 四 类 ,包括 分 类 
法 、 具 论 法 .关联 分 析 和 异常 发 现 方法 。 在 算法 上 要 结合 不 同 的 分 布 式 计算 环境 ,系统 性 能 
方面 要 考虑 减少 同步 与 分 布 的 开销 。 大 数据 挖掘 要 寻求 具有 分 布 式 和 并 行 两 种 特征 兼 具 的 
计算 环境 ,例如 云 计算 模式 , 即 提供 了 存储 的 功能 ,容错 性 比较 好 ,保证 可 用 性 、 可 靠 性 还 有 


1.3 大 数据 挖掘 过 程 概述 


大 数据 时 代 的 数据 挖掘 技术 并 不 是 一 门 新 的 学 科 , 其 基本 原理 与 传统 数据 挖掘 并 无 本 
质 区 别 。 只 是 由 于 所 需要 处 理 的 数据 规模 庞大 , 且 价值 密度 低 ,在 处 理 方法 和 逻辑 上 被 赋予 
了 新 的 含义 。 比 如 传统 数据 挖掘 由 于 数据 量 较 小 ,为 真实 反应 实际 情况 ,需要 构建 相对 复杂 
的 模型 。 大 数据 时 代 提 供 了 海量 的 数据 ,使 用 相对 简单 的 模型 便 可 以 满足 需求 。 

传统 数据 挖掘 过 程 一 般 采 用 如 图 1-1 所 示 。 

在 大 数据 时 代 ,数据 挖掘 的 过 程 本 质 相 同 , 但 是 也 有 差异 ,如 图 1-2 所 示 。 

图 1-1 所 示 为 数据 挖掘 基本 流程 ,包括 商业 理解 .数据 理解 数据 准备 、 建 模 、 模 型 评估 、 
模型 部 署 与 应 用 几 个 步骤。 图 1-2 所 示 为 大 数据 时 代数 据 挖掘 的 差异 ,可 以 看 出 传统 的 数 
据 挖掘 的 主要 内 容 从 因果 转换 到 大 数据 挖掘 的 关联 ,从 传统 的 数据 挖掘 的 数据 抽样 到 大 数 
据 量 的 全 局 数据 ,从 数据 类 型 的 结构 化 到 非 结 构 化 数据 的 转变 。 
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图 1-1 传统 大 数据 挖掘 过 程 
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因果 一 相关 


图 1-2 ”大 数据 时 代数 据 挖掘 的 差异 


1.3.1 挖掘 目标 的 定义 与 数据 理解 


挖掘 目标 的 定义 在 于 业务 的 驱动 ,商业 需求 的 导向 。 清 晰 地 定义 业务 问题 , 认 清 数据 挖 
据 的 目的 是 第 一 步 , 意 在 发 现 其 中 有 意义 的 模式 和 规则 的 业务 过 程 。 进 行商 业 理 解 , 在 着 手 
做 数据 模型 之 前 一 定 要 花 时 间 去 理解 需求 , 弄 清 楚 真正 要 解决 的 问题 是 什么 ,根据 需求 制定 
工作 方案 。 这 个 过 程 需要 比较 多 的 沟通 和 市 场 调研 ,了 解 问题 提 出 的 商业 逻辑 。 在 沟通 交 
流 过 程 中 ,为 了 便于 对 沟通 效果 进行 把 控 , 可 以 采取 思维 导 图 等 工具 对 结果 进行 记录 整理。 


1.3.2 数据 准备 与 数据 理解 


明确 需求 后 , 接 下 来 就 是 要 收集 并 整理 数据 建 模 所 需要 的 数据 , 即 数据 准备 。 数 据 准备 
是 资源 调配 的 过 程 ,需要 与 企业 的 相关 部 门 明确 可 以 使 用 的 数据 维度 有 哪些 ,哪些 维度 与 建 
模 任 务 相关 性 比价 高 。 这 个 过 程 通常 需要 一 定 的 专业 背景 知识 。 数 据 的 准备 过 程 一 般 包括 
数据 采集 ,数据 预 处 理 与 数据 存储 。 数 据 理解 指 的 是 对 用 于 挖掘 的 数据 做 预 处 理 和 统计 分 
析 过 程 ,有 时 也 称 为 ETL 过 程 。 主 要 包括 数据 的 抽取 、 清 洗 、 转 换 和 加 载 , 是 整个 数据 挖掘 
过 程 最 耗 时 的 过 程 ,也 是 最 为 关键 的 一 环 。 数 据 处 理 方法 是 否 得 当 , 对 数据 中 体现 出 来 的 业 


务 特点 理解 是 否 到 位 ,将 直接 影响 到 后 面 模型 的 选择 及 模型 的 效果 ,甚至 决定 整个 数据 挖掘 
工作 能 否 完成 预定 目标 。 该 过 程 需要 有 一 定 的 统计 学 理论 和 实际 经 验 ,并 具备 一 定 的 项 目 

首先 ,在 进行 数据 准备 前 必须 充分 了 解数 据 挖掘 所 需要 的 数据 属性 ,比如 ,数据 的 来 源 、 
数据 的 采集 方法 ,数据 的 类 型 等 。 

数据 的 种 类 很 多 ,按照 采用 的 衡量 尺度 不 同 , 可 将 数据 分 为 分 类 数据 、 顺 序数 据 和 数值 
型 数据 。 分 类 数据 的 直观 表现 形式 是 用 文字 来 表述 ,是 归于 某 一 类 别 的 非 数字 型 数据 ,用 于 
对 事物 进行 区 分 。 例 如 ,人 口 按照 性 别 分 为 男性 、 女 性 ,企业 按 经 营 性 质 分 为 事业 单位 民营 
企业 等 。 顺 序数 据 是 表述 某 一 有 序 类 别 的 数据 类 型 ,比如 ,考试 成 绩 分 为 优 、 良 、 中 、 及 格 ,不 
及 格 , 人 对 事物 的 态度 分 为 非常 满意 、 满 意 、 保 持 中 立 、 讨 天、 非常 讨 大 等。 现实 生活 中 事物 
的 属性 特征 表述 应 用 最 广 的 数据 类 型 便 是 数值 型 数据 ,例如 ,人 的 年 龄 .分 数 等 。 其 中 分 类 
数据 和 顺序 数据 呈现 的 是 事物 的 品质 特征 ,其 呈现 结果 是 类 别 、 等 级 ,此 类 数据 可 统称 为 定 
性 数据 ,而 数值 型 数据 表现 的 是 事物 的 数量 特征 ,一 般 是 用 数值 来 表述 ,所 以 此 类 数据 可 称 

按照 收集 的 方法 ,可 将 数据 分 为 观测 数据 和 实验 数据 。 观 测 数据 是 通过 真实 的 调查 或 
者 观测 统计 收集 来 的 数据 , 它 是 真实 发 生 情况 现象 的 一 种 记录 ,是 客观 无 人 为 因素 干扰 的 源 
数据 。 实 验 数据 是 在 实验 过 程 中 通过 对 研究 实验 对 象 的 控制 收集 的 数据 。 

按照 被 描述 的 现象 与 时 间 的 关系 ,可 以 将 数据 分 为 截面 数据 和 时 间 序 列 数据 。 截 面 数 
据 是 指 在 相同 或 近似 相同 的 时 间 点 上 收集 的 数据 ,此 类 数据 通常 是 在 不 同 空 间 上 获得 的 ,可 
用 于 描述 某 一 时 刻 某 现象 的 变化 情况 。 比 如 2010 一 2016 年 , 某 地 每 年 7 月 降水 量 的 情况 。 
时 间 序 列 数据 是 指 在 不 同时 间 收 集 到 的 数据 ,此 类 数据 是 按照 时 间 顺 序 进行 统计 的 ,是 为 了 
表现 某 种 现象 随时 间 的 变化 情况 。 比 如 2010 一 2016 年 , 某 地 的 降水 量 情况 。 

其 次 ,在 充分 了 解 需要 进行 挖掘 的 对 象 ,分 析 挖 掘 任务 、 价 值 后 ,需要 对 描述 研究 对 象 的 
各 类 信息 数据 进行 采集 。 采 集 数据 的 来 源 主要 分 为 直接 来 源 或 者 间接 来 源 。 直 接 来 源 是 指 
对 所 要 研究 的 对 象 有 自己 的 直接 获取 渠道 ,比如 自 有 的 数据 采集 系统 ,通过 数据 汇报 的 方式 
进行 数据 记录 。 直 接 来 源 的 数据 信息 全 面 ,但 一 般 采 集 过 程 较 慢 , 采 集成 本 略 高 。 间 接 来 源 
的 数据 相对 直接 来 源 的 数据 ,收集 比较 容易 ,采集 数据 的 成 本 比较 低 。 但 间接 来 源 的 数据 也 
存在 一 定 的 局 限 性 ,例如 数据 的 准确 性 ,涵盖 信息 的 全 面 性 ,数据 的 缺失 等 ,所 以 对 于 间接 来 
源 的 数据 在 选择 的 时 候 还 需要 充分 考虑 一 些 方面 ,比如 ,数据 的 来 源 、 收 集 的 目的 、 采 集 的 方 
式 . 是 否 经 过 处 理 、 何 时 采集 的 数据 等 。 

再 次 ,在 对 数据 进行 建 模 前 ,需要 对 采集 来 的 数据 进行 相应 的 数据 预 处 理 , 因 为 健壮 性 
再 好 的 模型 也 需要 有 规范 格式 的 输入 数据 。 数 据 的 预 处 理 主要 包括 缺失 、 品 声 等 异常 数据 
处 理 , 数 据 格式 转换 ,数据 特征 提取 。 对 于 缺失 数据 ,如 果 数据 样本 量 较 大 ,缺失 数据 可 直接 
忽略 删除 ,但 如 果 样 本 量 较 少 ,可 通过 插值 等 方法 对 缺失 数据 进行 填充 。 对 于 噪声 等 异常 数 
据 , 可 通过 聚 类 ,回归 、 分 箱 等 方法 进行 去 躁 ,平滑 数据 。 数 据 挖掘 模型 对 输入 数据 是 有 一 定 
要 求 的 ,所 以 在 数据 建 模 前 需要 对 数据 进行 符合 模型 输入 数据 要 求 的 格式 转换 ,数据 常见 的 
数据 格式 有 文本 格式 、 二 进 制 文件 .CSV 格式 及 当下 大 数据 流行 的 RDD 等 。 有 时 候 数据 量 
较 大 或 者 是 高 维 数据 ,如 果 直 接 分 析 原 始 数据 ,可 能 不 能 直观 地 找到 价值 挖掘 的 切入 点 或 者 
因为 高 维 灾 的 情况 导致 无 法 分 析 。 面 对 此 类 数据 ,训练 时 间 复 杂 度 也 是 后 期 评估 模型 的 关 








键 要 素 , 所 以 有 效 的 数据 降 维 , 提 取 数 据 特 征 值 对 大 数据 控 掘 至 关 重 要 ,常用 的 数据 降 维 方 
法 有 主 成 分 分 析 、 因 子 分 析 、 随 机 投影 、 滤 波 等 方法 。 

最 后 ,需要 根据 预 处 理 的 数据 类 型 数据 量 采取 合适 的 方式 进行 存储 。 主 要 是 根据 数据 
的 大 小 来 选择 存储 的 方式 ,比如 小 文件 用 TXT、CSV .table 等 ,数据 量 较 大 则 选取 数据 库 ， 
例如 MySQL、Oracle、.HDFS 等 ,数据 准备 过 程 如 图 1-3 所 示 。 
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图 1-3 数据 准备 过 程 


1.3.3 ”过程 模 型 的 建立 


过 程 模 型 的 建立 是 用 数学 的 方式 对 挖掘 价值 目标 的 一 种 抽象 的 表达 ,是 对 挖掘 价值 目 
标 数 据 模式 化 、 规 则 化 。 建 模 过 程 中 首要 的 任务 便 是 结合 挖掘 价值 目标 从 预 处 理 的 数据 中 
选择 参与 模型 建设 的 数据 变量 ,其 次 是 根据 数据 变量 的 描述 性 统计 分 析 选 择 合适 的 算法 , 设 定 
模型 参数 ,然后 将 训练 数据 加 载 到 算法 中 ,训练 测试 结果 ,进而 优化 算法 ,输出 最 佳 分 析 结 果 。 

模型 建立 是 整个 数据 挖掘 流程 中 最 为 关键 的 一 步 , 需 要 在 数据 理解 的 基础 上 选择 并 实 
现 相 关 的 挖掘 算法 ,进而 对 算法 进行 反复 调试 .实验 。 通 常 模型 建立 和 数据 理解 会 相互 影 
响 ,经 常 需要 经 过 反复 的 尝试 .磨合 ,多 次 迭代 后 方 可 训练 出 真正 有 效 的 模型 。 

数据 变量 的 选择 是 建立 模型 的 关键 ,输入 模型 的 数据 变量 决定 了 模型 输出 结果 是 否 能 
很 大 程度 上 符合 挖掘 价值 目标 要 求 。 数 据 变量 一 般 都 是 选择 通过 综合 的 描述 统计 或 者 简单 
的 逻辑 关系 处 理 能 够 贴 合 研究 对 象 或 者 挖掘 价值 目标 相关 属性 的 数据 ,比如 频次 ,均值 . 众 
数 . 中 位 数 及 期 望 方差. 协 方差 等 基本 统计 参数 对 所 要 选择 的 数据 变量 有 个 初步 的 认识 来 
辨识 数据 整体 情况 。 

模型 算法 是 对 研究 对 象 或 挖掘 价值 目标 的 存在 的 潜在 模式 (规则 ) 进 行 抽象 化 数学 化 。 
模型 算法 是 数据 挖掘 者 对 研究 对 象 产生 价值 过 程 的 描述 转化 ,算法 中 的 每 个 环节 ,每 个 参数 
都 是 对 数据 变量 的 抽象 数学 化 ,是 构建 潜在 模式 (规则 ) 必 不 可 少 的 过 程 。 模 型 算法 的 选择 
一 般 遵 循 两 类 准则 : AIC 信息 准则 ( 赤 池 信息 量 准则 ,Akaike Information Criterion) 和 BIC 
信息 准则 ( 贝 叶 斯 信息 准则 ,Bayesian Information Criterion) 。 其 中 AIC 信息 准则 是 建立 在 
炉 的 概念 基础 之 上 的 ,用 于 衡量 模型 的 复杂 度 和 拟 合 数 据 的 优良 性 。BIC 信息 准则 是 依照 
贝 叶 斯 准则 来 对 模型 进行 衡量 ,与 AIC 的 不 同 之 处 是 ,BIC 的 惩罚 项 要 比 AIC 的 大 ,在 样本 
数量 过 多 时 ,可 有 效 防 止 模型 精度 过 高 造成 的 模型 复杂 度 过 高 。 选 择 算 法 模型 要 充分 考虑 





模型 的 复杂 度 、 拟 合 的 精度 以 及 部 署 环境 的 要 求 。 

在 选择 好 算法 模型 后 , 便 需 要 对 模型 进行 训练 ,进而 优化 完善 模型 ,添加 测试 数据 ,得 出 
分 析 结 果 。 将 训练 数据 输入 算法 模型 ,对 模型 的 健壮 性 等 做 调 优 测试 ,进行 优化 ,然后 再 输 
入 测试 数据 ,对 训练 数据 和 测试 数据 结果 通过 列 联 表 、 召 回 率 、 精 确 度 等 衡量 方式 ,对 训练 数 
据 结 果 和 测试 数据 结果 进行 对 比分 析 ,得 出 模型 算法 的 可 信 程度 ,进而 选择 最 佳 的 模型 。 


1.3.4 过 程 模型 的 评估 


模型 评估 是 在 数据 挖掘 工作 基本 结束 的 时 候 , 对 最 终 模 型 效果 进行 评测 的 过 程 。 在 挖 
掘 算法 初期 需要 制定 好 最 终 模 型 的 评测 方法 、 相 关 指 标 等 ,在 这 个 过 程 中 对 这 些 评测 指标 进 
行 量化 ,判断 最 终 模型 是 否 可 以 达到 预期 目标 。 通 常 模 型 的 评估 人 员 和 模型 的 构建 人 员 不 
是 同一 批 人 ,以 保证 模型 评估 的 客观 .公正 性 。 

1.3.5 模型 的 部 署 与 应 用 

在 清楚 挖掘 目标 、 确 定数 据 源 及 算法 模型 后 ,需要 根据 真实 的 场景 进行 部 署 模型 。 一 般 
模型 的 部 署 需要 考虑 以 下 三 个 方面 。 

1. 数据 大 小 与 数据 的 结构 

数据 大 小 、 结 构 问 题 直接 决定 了 模型 的 计算 环境 和 技术 手段 ,例如 ,P 级 数据 是 普通 的 
PC 无 法 承载 计算 任务 的 。 一 般 常 见 的 数据 为 结构 化 数据 ,如 一 般 的 数据 库 SQL Server、 
MySQL、Access 都 仅 能 存储 计算 结构 化 的 数据 ,对 于 非 结 构 化 的 数据 ,如 字典 形式 .二 map， 
key 二 等 数据 格式 ,需要 结合 先进 的 计算 手段 进行 完整 存储 并 计算 。 

2. 算法 模型 的 复杂 度 与 计算 深度 

有 时 候 因 为 模型 算法 较为 复杂 ,如 对 数据 进行 深度 遍历 ,深度 分 类 处 理 等 ; 再 如 像 神经 
网 络 算法 ,每 层 神经 网 络 需要 完成 不 同 功能 的 计算 ,根据 计算 功能 不 同 对 算法 模型 进行 分 层 

3. 模型 的 健壮 性 与 灵活 可 调 性 

健壮 性 是 评价 一 个 模型 能 否 稳定 处 理 数据 的 客观 指标 , 它 对 大 多 数 符合 模型 计算 的 数 
据 具备 可 适 性 ,也 对 少 部 分 数据 具备 容错 的 能 力 。 一 个 挖掘 能 力 强 的 模型 需要 经 过 不 断 的 
数据 训练 调整 才能 达到 最 佳 的 处 理 能 力 , 所 以 在 部 署 模型 的 过 程 中 需要 考虑 模型 各 类 参数 
关键 的 地 方 , 应 当 具 备 灵活 的 可 调 性 , 切 不 可 以 改变 算法 为 代价 来 更 改 模型 的 挖掘 能 力 。 算 
法 模型 应 当 是 在 部 署 模型 前 已 经 确认 ,后 期 部 署 模型 的 过 程 主要 考虑 的 是 优化 的 过 程 ,所 以 
模型 参数 的 可 调 性 至 关 重 要 。 

综合 以 上 考虑 ,在 模型 部 署 时 ,根据 数据 规模 、 算 法 模型 复杂 度 、 实 际 生产 环境 等 因素 来 
考虑 部 署 环境 ,在 成 本 的 可 控 程 度 内 , 尽 可 能 最 优化 算法 模型 , 既 要 对 数据 有 强大 甜 吐 能 力 ， 
又 要 有 最 优 的 挖掘 价值 目标 的 算法 能 力 。 


小 结 


本 章 主要 从 宏观 的 角度 概括 地 介绍 了 大 数据 挖掘 。 
大 数据 概述 。 从 大 数据 的 业务 应 用 场景 到 大 数据 的 产生 、 特 征 , 详 细 论 述 了 大 数据 的 现 





状 ,趋势 以 及 大 数据 时 代 面 临 的 技术 问题 。 

云 计算 与 大 数据 挖掘 。 首 先 介绍 了 云 计 算 的 定义 与 特点 ,重点 理解 云 计算 与 大 数据 的 
关系 ,接着 介绍 了 大 数据 挖掘 的 定义 以 及 与 传统 的 数据 挖掘 的 不 同 。 

大 数据 挖掘 过 程 概述 。 详 细 地 介绍 了 大 数据 挖掘 过 程 ,从 挖掘 目标 的 定义 ,数据 准备 与 
数据 理解 、 过 程 模 型 的 建立 、 过 程 模型 的 评估 、 模 型 的 部 署 与 应 用 5 个 方面 进行 了 分 步 介 绍 。 





es 
业务 应 用 场景 十 云 计算 与 大 数据 挖 所 十 挖掘 过 程 概述 . mp4(48. 7MB) 


习 题 


(1) 什么 是 大 数据 ? 其 特点 是 什么 ? 

(2) 谈 谈 你 对 大 数据 现状 及 趋势 的 认识 。 

(3) 简 述 云 计算 与 大 数据 的 联系 与 区 别 。 

(4) 传统 的 数据 挖掘 在 大 数据 环境 下 面临 的 问题 都 有 哪些 ? 
(5) 详 述 大 数据 时 代数 据 挖掘 的 差异 。 

(6) 大 数据 挖掘 过 程 都 有 哪些 ? 详 述 各 部 分 的 工作 。 


大 数据 相关 技术 


【内 容 摘要 】〗 本 章 介绍 大 数据 的 相关 技术 ,包括 大 数据 获取 技术 一 一 采集 系统 Flume、 
分 布 式 消息 队列 Kafka 数据 预 处 理工 具 Kettle 等 ,大 数据 存储 和 处 理 技术 Hadoop 分 
布 式 存储 和 计算 平台 .Spark 分 布 式 内 存 计算 引擎 、 流 式 数据 计算 引擎 Storm 等 ,大 数据 查 
询 和 分 析 技 术 一 一 SQL On Hadoop、Mahout、Kylin 等 ,大 数据 可 视 化 技术 以 及 主流 大 数据 
分 析 平 台 。 

【学 习 目 标 】 掌握 Hadoop、Spark、Storm 等 基本 概念 与 特征 ,了 解 大 数据 的 其 他 相关 
技术 以 及 处 理 过 程 。 
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近年 来 伴随 大 数据 相关 技术 的 逐渐 成 熟 ,在 大 数据 应 用 的 数据 采集 、 数 据 存储 、 数 据 计 
算 与 分 析 、 数 据 可 视 化 等 各 个 阶段 的 技术 应 用 日 趋 稳 定 。 在 数据 获取 阶段 ,目前 主要 涉及 的 
数据 源 包括 原 有 业务 系统 存储 于 传统 关系 型 数据 库 和 数据 仓库 中 的 数据 、 以 日 志文 件 为 代 
表 的 文本 数据 .音频 视频 等 非 结 构 化 数据 以 及 其 他 外 部 互联 网 数据 。 本 节 将 对 如 上 各 种 数 
据 源 的 数据 采集 技术 进行 介绍 。 


2.1.1 分 布 式 数据 采集 系统 Flume 


1. Flume 简介 

Flume 是 Cloudera 开源 的 分 布 式 .具有 较 高 可 靠 性 、 较 高 容错 性 并 且 易 于 定制 与 扩展 
的 海量 日 志 聚 合 和 传输 系统 ,Flume 支持 在 日 志 系 统 中 定制 各 类 数据 发 送 方 用 于 收集 数据 ， 
同时 Flume 具备 对 数据 进行 简单 处 理 并 写 到 各 种 数据 接受 方 的 能 力 ,如 文本 、HDFS、 
Hbase 等 。Flume 使 用 Java 编写 ,其 需要 运行 在 JDK 1. 6 或 更 高 版 本 之 上 。 当 前 Flume 有 
Flume 0.9XX 和 Flume 1. X 两 个 版 本 ,Flume 0.9X 版 本 的 统称 Flume-og,Flume 1. XX 版 本 
的 统称 Flume-ng。 

2. Flume 的 工作 原理 

Flume-ng 架构 如 图 2-1 所 示 , 由 一 个 分 布 式 系统 变 成 了 传输 工具 。 由 一 个 Agent 端的 
Sink 流向 另 一 个 Agent 的 Source。 

Flume 运行 的 核心 是 Agent。 它 是 一 个 完整 的 数据 收集 工具 .含有 三 个 核心 组 件 , 分 别 
是 Source、Channel 和 Sink ,类似 于 生产 者 、 人 仓库、 消费 者 的 架构 。 

Source 组 件 是 专门 用 来 收集 数据 的 ,可 以 处 理 各 种 类 型 .各 种 格式 的 日 志 数据 ,包括 
































2-1 Flume-ng 架构 图 


avro \thrift ,exec\ jms、spooling directory netcat sequence generator、syslog http \legacy 及 
自 定 义 。Source 可 以 接收 外 部 源 发 送 过 来 的 数据 ,完成 对 日 志 数 据 的 收集 ,并 将 收集 到 的 
数据 写 人 Channel 中 。 

Channel 组 件 在 Agent 中 是 专门 用 来 存放 临时 数据 的 , 即 对 采集 到 的 数据 进行 简单 的 
缓存 ,可 以 存放 在 Memory、JDBC \File 等 。 Flume Channel 主要 提供 一 个 队列 的 功能 ,包括 
Memory Channel .JDBC Channel File Channel 等 。 

Sink 组 件 用 于 把 数据 发 送 到 目的 地 ,目的 地 包括 HDFS、 Logger、 Avro、 Thrift、IPC、 
File、Null.HBase、Solr 及 自 定义 。Flume Sink 取出 Channel 中 的 数据 ,存储 到 相应 的 文件 
系统 ,数据库 或 者 提交 到 远程 服务 器 。 

Flume 传输 的 数据 的 基本 单位 是 Event,Event 也 是 事务 的 基本 单位 ,本 身 为 一 个 byte 
数组 ,Event 代表 一 个 数据 流 的 最 小 完整 单元 ,从 外 部 数据 源 来 ,向 外 部 的 目的 地 去 。 如 果 
是 文本 文件 ,通常 是 一 行 记录 ,一 个 完整 的 Event 包括 event headers .event body、event 信 
息 ( 即 文本 文件 中 的 单行 记录 )。 其 中 ,event 信息 就 是 Flume 收集 到 的 日 记 记 录 。 

Flume 把 数据 从 数据 源 Source 收集 过 来 ,再 将 收集 到 的 数据 送 到 指定 的 目的 地 Sink。 
为 了 保证 输送 过 程 一 定 成 功 ,在 送 到 目的 地 Sink 之 前 ,会 先 缓存 数据 Channel, 待 数据 真正 
到 达 目 的 地 Sink 后 ,Flume 删除 自己 缓存 的 数据 。 在 整个 数据 传输 的 过 程 中 ,流动 的 是 
Event, 即 事务 保证 是 在 Event 级 别 进行 的 。Event 将 传输 的 数据 进行 封装 ,Event 从 Source 
流向 Channel, 再 到 Sink, 本 身 为 一 个 字 节 数组 ,可 携带 头 信息 headers 中 的 信息 。 

3. Flume-ng 安装 部 署 与 应 用 

1) Flume-ng 安装 部 署 

从 官网 http://flume. apache. org/download. html 下 载 最 新 的 安装 包 ,将 下 载 的 安装 包 
上 传 到 指定 的 Linux 服务 器 的 指定 目录 下 ,解压 缩 下 载 的 安装 包 到 相应 的 目录 下 ,并 修改 
flume-env. sh 配置 文件 ,为 其 设置 JAVA_HOME 环境 变量 。 最 后 ,安装 完成 之 后 需要 验证 
其 是 否 安装 成 功 ,可 以 在 Linux 命令 行 中 进入 其 bin 目录 下 ,输入 Flume-ng version ,验证 安 

2) Flume 应 用 一 一 日 志 采集 

首先 书写 一 个 配置 文件 ,在 配置 文件 中 描述 Source、Channel 与 Sink 的 具体 实现 ,而 后 
运行 一 个 Agent 实例 ,在 运行 Agent 实例 的 过 程 中 会 读 取 配 置 文件 内 容 ,这 样 Flume 就 会 
采集 到 数据 。Flume 提供 了 大 量 内 置 的 Source、Channel 和 Sink 类 型 ,而 且 不 同类 型 的 
Source、Channel 和 Sink 可 以 自由 组 合 . 组 合 方式 基于 用 户 设置 的 配置 文件 ,非常 灵活 。 比 
如 ,Channel 可 以 把 事件 暂 存在 内 存 里 ,也 可 以 持久 化 到 本 地 硬盘 上 。Sink 可 以 把 日 志 写 人 


HDFS、HBase, 甚 至 是 另外 一 个 Source。 上 日志 采集 的 具体 用 法 如 下 。 
(1) 从 整体 上 描述 代理 Agent 中 Sources、Sinks、Channels 所 涉及 的 组 件 。 


# Name the components on this agent 


1 

2 al.sources= rl 
3 al.sinks= kl 
4 


al.channels= cl 


(2) 详细 描述 Agent 中 每 一 个 Source、Sink 与 Channel 的 具体 实现 。 在 描述 Source 
时 ,指定 Source 的 接受 类 型 为 文件 、http 或 thrift; 描述 Sink 时 ,指定 结果 的 输出 类 型 为 
HDFS、HBase 等 ; 描述 Channel 时 ,指定 输出 是 内 存 、 数 据 库 或 文件 等 。 


#Describe/configure the source 
al.sources.rl.type = netcat 
al.sources.rl.bind = localhost 
al.sources.rl.port = 44444 


#Describe the sink 
al.sinks.kl.type = logger 
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#Use a channel which buffers events in memory 
10 al.channels.cl.type = memory 

11 al.channels.cl.capacity = 1000 

12 al.channels.cl.transactionCapacity = 100 


(3) 通过 Channel 将 Source 与 Sink 连接 起 来 。 


1 #Bind the source and sink to the channel 
2 al.sources.rl.channels= cl 
3 al.sinks.kl.channel = cl 


(4) 启动 Agent 的 shell 操作 。 


1 flume-ng agent -n al -c ../conf -f ../conf/example.file 
2 -Dflume.root.]logger=DEBUG,console 


参数 说 明 : 

-n 指定 Agent 名 称 (与 配置 文件 中 代理 的 名 字 相 同 ); 

-c 指定 Flume 中 配置 文件 的 目录 ; 

二 指定 配置 文件 ; 

-Dflume. root. logger 王 DEBUG ,console 设置 日 志 等 级 。 

【 例 2-1】 NetCat Source 监听 一 个 指定 的 网 络 端口 , 即 只 要 应 用 程序 向 这 个 端口 写 数 
据 , 这 个 Source 组 件 就 可 以 获取 到 信息 。 其 中 ,Sink: logger; Channel: memory; Flume 官 
网 中 的 NetCat Source 描述 : 

Property Name Default Description 


Channels— 


type- The component type name, needs to be netcat 
bind- 日 志 需 要 发 送 到 的 主机 名 或 者 TP 地 址 ,该 主机 运行 着 netcat 类 型 的 source 在 监听 
port- 日 志 需 要 发 送 到 的 端口 号 ,该 端口 号 要 有 netcat 类 型 的 source 在 监听 
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(1) 编写 配置 文件 : 


1 #Name the components on this agent 
2 al.sources= rl 

3 al.sinks= kl 

4 al.channels= cl 

5 

6 #Describe/configure the source 

7 al.sources.rl.type = netcat 

8 al.sources.rl.bind= 192.168.80.80 
9 al.sources.rl.port = 44444 

10 


11 #Describe the sink 
12 al.sinks.kl.type = logger 


14 #Use a channel which buffers events in memory 
15 al.channels.cl.type = memory 

16 al.channels.cl.capacity = 1000 

17 al.channels.cl.transactionCapacity = 100 


19 #Bind the source and sink to the channel 
20 al.sources.rl.channels = cl 
21 al.sinks.kl.channel = cl 


(2) 启动 Flume Agent al 服务 端 : 


1 flume- ng agent -nal -c ../conf -ff ../conf/netcat.conf - Dflume.root.1logger= 
DEBUG, console 


(3) 使 用 Telnet 发 送 数据 : 
1 telnet 192.168.80.80 44444 big data world! (Windows 中 运行 的 ) 


(4) 在 控制 台 上 查看 Flume 收集 到 的 日 志 数据 : 
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2.1.2 分 布 式 消息 队列 Kafka 


1. Kafka 简介 

Kafka 是 由 LinkedIn 开发 的 一 个 分 布 式 的 消息 系统 ,使 用 Scala 编写 , 它 以 可 水 平 扩展 
和 高 春 吐 率 而 被 广泛 使 用 ,用 作 LinkedIn 网 站 的 活动 流 数据 和 运营 数据 的 处 理工 具 。 现 在 
Kafka 已 被 多 家 不 同类 型 的 公司 采用 ,作为 其 内 部 各 种 数据 的 处 理工 具 或 消息 队列 服务 。 
目前 越 来 越 多 的 开源 分 布 式 处 理 系 统 ( 如 Cloudera、Apache Storm、Spark) 都 支持 与 Kafka 
集成 。 

Kafka 是 一 种 分 布 式 的 基于 发 布 /订阅 的 消息 系统 ,以 下 面 几 点 为 设计 目标 。 

(1) 以 时 间 复 杂 度 为 0(1) 的 方式 提供 消息 持久 化 能 力 , 即 使 对 TB 级 以 上 数据 也 能 保 
证 常数 时 间 复 杂 度 的 访问 性 能 。 

(2) 高 吞吐 率 。 即 使 在 廉价 的 商用 机 器 上 也 能 做 到 单机 支持 每 秒 100KB 条 以 上 消息 
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的 传输 。 
(3) 支持 Kafka Server 间 的 消息 分 区 及 分 布 式 消费 ,可 保证 每 个 Partition 内 的 消息 顺 

序 传输 。 


(4) 同时 支持 离线 数据 处 理 和 实时 数据 处 理 。 

(5) Scale out 支持 在 线 水 平 扩展 。 

2. Kafka 架构 与 工作 原理 

Kafka 是 一 个 低 延 时 高 春 吐 的 分 布 式 消息 队列 系统 ,同时 满足 在 线 和 离线 处 理 海量 消 
息 数据 派发 ,支持 发 布 /订阅 模式 。Kafka 作为 一 个 集群 运行 在 一 个 或 多 个 服务 器 上 ,集群 
存储 的 消息 以 Topic 为 类 别 记录 ,每 个 Topic 由 一 个 Value 和 时 间 截 构成 ,Kafka 的 系统 架 
构 如 图 2-2 所 示 。 
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图 2-2 Kafka 系统 架构 


Kafka 中 的 消息 发 送 者 称 为 Producer, 消 息 接收 者 称 为 Consumer。Broker 是 指 Kafka 
集群 包含 的 一 个 或 多 个 服务 器 ,Kafka 集群 有 多 个 实例 Broker。 一 个 典型 的 Kafka 集群 包 
含 若干 Producer, 负 责 发 布 消 息 到 Kafka Broker, 也 可 以 是 Web 前 端 产生 的 Page View, 或 
者 是 服务 器 日 志 、 系 统 CPU、Memory 等 。Producer 使 用 push 模式 将 消息 发 布 到 Broker， 
Consumer 使 用 pull 模式 从 Broker 订阅 并 消费 消息 。 使 用 Kafka 可 将 应 用 系统 产生 的 流 式 
数据 传递 给 后 台 分 析 系 统 或 者 分 布 式 文件 系统 进行 存储 。Kafka 还 包括 若干 Consumer 
Group。Consumer 是 消息 消费 者 ,向 Kafka Broker 读 取消 息 的 客户 端 。 每 个 Consumer 属 
于 一 个 特定 的 Consumer Group ,以 及 一 个 Zookeeper 集群 。Kafka 通过 Zookeeper 管理 集 
群 配 置 ,选举 Leader, 以 及 在 Consumer Group 发 生变 化 时 进行 rebalance。 

3. Kafka 的 特点 

(1) 消息 持久 化 与 有 效 期 : Kafka 会 把 消息 持久 化 到 本 地 文件 系统 中 ,通过 配置 长 久保 
留 其 中 的 消息 ,以便 Consumer 多 次 消费 ,并 且 保 持 极 高 的 效率 。 

(2) 批量 发 送 : Kafka 支持 以 消息 集合 为 单位 进行 批量 发 送 ,以 提高 push 效率 。 

(3) 负载 均衡 : Kafka 提供 了 一 个 metadata API 来 管理 Broker 之 间 的 负载 。 各 个 
Broker 在 Kafka 集群 中 地 位 一 样 ,可 以 随意 地 增加 或 删除 任何 一 个 Broker 节点 。 

(4) 同步 异步 (push-and-pull) : Kafka 中 的 Producer 和 Consumer 采用 的 是 push-and- 

















pull 模式 , 即 Producer 只 管 向 Broker push 消息 ,Consumer 只 管 从 Broker pull 消息 ,两 者 
对 消息 的 生产 和 消费 是 异步 的 ,Producer 采用 异步 push 方式 , 极 大 地 提高 了 Kafka 系统 的 
吞吐 率 。 

(5) 分 区 机 制 Partition: Kafka 的 Broker 端 支持 消息 分 区 ,Producer 可 以 决定 把 消息 
发 到 哪个 分 区 。 一 个 主题 中 可 以 有 多 个 分 区 ,具体 分 区 的 数量 是 可 配置 的 。 

(6) 离线 数据 装载 : Kafka 由 于 对 可 拓展 的 数据 持久 化 的 支持 , 它 也 非常 适合 向 
Hadoop 或 者 数据 仓库 中 进行 数据 装载 。 

(7) 插件 支持 : 现在 不 少 活跃 的 社区 已 经 开发 出 不 少 插件 来 拓展 Kafka 的 功能 ,如 用 
来 配合 Storm、Hadoop、Flume 相关 的 插件 。 

4. Kafka 使 用 场景 

Kafka 可 以 应 用 在 以 下 几 个 方面 。 

(1) 消息 系统 : 替换 传统 的 消息 系统 , 解 耦 系统 或 缓存 待 处 理 的 数据 。Kafka 有 更 好 的 
春 吐 量 , 内 置 了 分 片 ` 复 制 、 容 错 机 制 , 是 大 规模 数据 消息 处 理 更 好 的 解决 方案 。 

(2) 网 站 活动 跟踪 : 网 站 的 访问 量 、 搜 索 量 , 或 者 其 他 用 户 的 活动 行为 (如 注册 、 充 值 、 
支付 ,购买 等 ) 可 以 发 布 到 中 心 的 Topic。 每 种 类 型 可 以 作为 一 个 Topic, 这 些 信息 流 可 以 被 
消费 者 订阅 实时 处 理 、. 实 时 监控 或 者 将 数据 流 加 载 到 Hadoop 中 进行 离线 处 理 。 

(3) 度量 统计 : 可 以 用 于 度量 统计 一 些 运 维 监 控 数 据 ,将 分 布 式 的 一 些 监控 数据 聚集 
到 一 起 。 

(4) 日 志 聚 合 : 可 以 作为 一 个 日 志 聚 合 的 替换 方案 ,如 Scribe、Flume。 

(5) 数据 流 处 理 : 可 以 对 数据 进行 分 级 处 理 ,将 从 Kafka 获取 的 原始 数据 进行 加 工 泣 
色 后 再 发 布 至 Kafka。 

(6) 事件 溯源 : 可 以 时 间 为 顺序 记录 应 用 事件 的 状态 变化 ,从 而 为 事件 溯源 。 

(7) 提交 日 志 : 可 以 作为 分 布 式 系统 的 外 部 日 志 存 储 介质 。 


2.1.3 Sqoop 数据 转移 工具 


1. Sqoop 简介 

Sqoop 项 目 开始 于 2009 年 ,最 早 是 作为 Hadoop 的 一 个 第 三 方 模块 存在 ,后 来 独立 成 
为 一 个 Apache 项 目 。Sqoop 是 一 个 用 于 Hadoop(Hive) 和 关系 型 数据 库 之 间 进 行 数据 传 
输 的 数据 传输 系统 ,是 一 款 开源 的 工具 。 使 用 Sqoop 可 以 从 MySQL、Oracle 等 关系 型 数据 
库 中 导入 数据 到 Hadoop 的 HDFS 分 布 式 文件 系统 中 或 者 HBase 数据 库 中 ,在 MapReduce 
中 进行 数据 处 理 转换 并 将 结果 输出 数据 到 关系 型 数据 库 。Sqoop 通过 MapReduce 任务 来 
传输 数据 ,从 而 提供 并 发 特性 和 容错 。Sqoop 的 版 本 主要 分 为 Sqoopl 和 Sqoop2,Sqoopl 基 
于 客户 端 模式 ,用 户 使 用 客户 端 模式 ,需要 在 客户 端 节 点 安装 Sqoop 和 连接 器 /驱动 器 ， 
Sqoopl 只 提交 一 个 map 作业 ,数据 的 传输 和 转换 都 由 Mappers 来 完成 ,只 提供 了 CLI 
(Command Line Interface, 命 令 行 模式 ) 方 式 。Sqoop2 基于 服务 的 模式 ,服务 模式 主要 分 为 
Sqoop2 server 和 client, 用 户 使 用 服务 模式 ,需要 在 Sqoop2 server 上 安装 连接 器 /驱动 器 ， 
所 有 配置 信息 都 在 Sqoop2 server 上 进行 配置 。Sqoop2 提交 一 个 MapReduce 作业 ， 
Mappers 负责 从 数据 源 传输 数据 ,Reducers 负责 根据 指定 的 源 来 转换 数据 ,同时 也 支持 
Web UI 的 方式 。 





2. Sqoop 命令 
Sqoop 的 本 质 还 是 一 个 命令 行 工具 ,Sqoop 大 约 有 13 个 命令 和 几 种 通用 的 参数 ,13 个 


命令 有 各 自 的 参数 , 见 表 2-1。 其 中 ,使 用 频率 最 高 的 选项 还 是 import 和 export 选项 。 












































表 2-1 Sqoop 命令 工具 
序号 命 类 说 明 
从 关系 型 数据 库 中 导入 数据 (来 自 表 或 者 查询 语句 ) 
1 import ImportTool 
到 HDFS 中 

2 | export ExportTool 将 HDFS 中 的 数据 导入 关系 型 数据 库 中 
3 codegen CodeGenTool 获取 数据 库 中 某 张 表 数据 生成 Java 并 打 成 jar 包 
4 create-hive-table | CreateHiveTableTool | 创建 Hive 表 
5 eval EvalSqlTool 查看 SQL 执行 结果 
6 import-all-tables | ImportAllTablesTool | 导入 某 个 数据 库 下 所 有 的 表 到 HDFS 中 
7 | job JobTool 
8 list-databases ListDatabasesTool 列 出 所 有 数据 库 名 
9 | list-tables ListTablesTool 列 出 某 个 数据 库 下 所 有 的 表 
10 | merge MergeTool 
11 | metastore MetastoreTool 
12 | help HelpTool 查看 帮助 
13 | version VersionTool 查看 版 本 











3. Sqoop 命令 举例 
(1) 列 出 Mysql 中 的 所 有 数据 库 。 


sqoop list- databases - connect jdbc:mysql://localhost:3306/ -username root — 
password 123456 


(2) 连接 Mysql 并 列 出 test 数据 库 中 的 表 。 


sqoop list- tables - connect jdbc:mysql://localhost:3306/test -username root — 
password 123456 


注意 : 命令 中 的 test 为 Mysql 中 的 test 数据 库 名 称 , username、password 分 别 为 


Mysql 数据 库 的 用 户 密码 。 


(3) 复制 表 结构 。 
将 关系 型 数据 的 表 结 构 复制 到 Hive 中 ,只 是 复制 表 的 结构 , 表 中 的 内 容 没有 复制 


过 去 。 


sqoop create- hive- table - connect jdbc:mysql://localhost:3306/test 
-table sqoop test -username root - password 123456 -hive- table 
test 


其 中 ,-table sqoop_test 为 Mysql 中 的 test 数据 库 的 表 -hive-table, test 为 Hive 中 新 建 


的 表 名 称 。 


(4) 从 关系 数据 库 导入 文件 到 Hive 中 。 


sqoop import - connect jdbc:mysql://localhost:3306/zxtest - username 





root -password 123456 -table sqoop test -hive- import -hive-table 

3 test -ml 

(5) 导入 表 数 据 。 

将 Hive 中 的 表 数 据 导 入 Mysql 中 ,在 进行 导入 之 前 ,Mysql 中 的 表 hive_test 必须 已 经 
创建 好 。 


sqoop export - connect jdbc:mysql://localhost:3306/zxtest — username 
root -Password root -table hive test -export- dir 
/user/hive/warehouse/new test partition/dt=2012- 03- 05 


(6) 从 数据 库 导出 表 的 数据 到 HDFS 文件 。 


./sqoop import - connect 
jdbc:mysql://10.28.168.109:3306/compression -username=hadoop 
-password=- 123456 - table HADOOP USER INFO -m1 -target- dir 
/user/test 


(7) 从 数据 库 增 量 导入 表 数 据 到 HDFS 中 。 


./sqoop import - connect jdbc:mysql://10.28.168.109:3306/compression 
hadoop - password= 123456 -table HADOOP USER INFO -m 1 
-target- dir /user/test -check- column id - incremental append 
-last-value 3 





4. Sqoop 流程 
(1) 读 取 要 导入 数据 的 表 结构 ,生成 运行 类 ,默认 是 QueryResult, 打 成 jar 包 , 然 后 提交 


给 Hadoop。 


(2) 设置 好 job 和 各 个 参数 。 
(3) 由 Hadoop 使 用 MapReduce 来 执行 import 命令 。 
QO@ 首先 要 对 数据 进行 切 分 , 即 DataSplit。 


DataDrivenDBInputFormat .getSplits (JobContext job) 
@ 切 分 好 范围 后 , 写 人 范围 ,以 便 读 取 。 
DataDrivenDBInputFormat .write (Dataoutput output) 


这 里 是 lowerBoundQuery and upperBoundQuery。 
@ 读 取 @ 写 入 的 范围 。 


DataDrivenDBInputFormat .readFields (DataInput input) 

@ 创建 RecordReader, 从 数据 库 中 读 取 数 据 。 

DataDrivenDBInputFormat .createRecordReader (InputSplit split, TaskAttemptContext context) 
加 创建 Map。 

Text ImportMapper. setup (Context context) 

@@ RecordReader 一 行 一 行 地 从 关系 型 数据 库 中 读 取 数据 ,设置 好 Map 的 Key 和 


Value, 交 给 Map DBRecordReader. nextKeyValue() 。 
@ 运行 Map。 


Text ImportMapper .map (LongWritable key, SqoopRecord val, Context context) 


最 后 生成 的 Key 是 行 数据 ,由 QueryResult 生成 ,Value 是 NullWritable. get()。 
2.1.4 网 络 疏 虫 技术 


网 络 怜 虫 是 一 种 按照 一 定 的 规则 自动 地 抓 取 万 维 网 信息 的 程序 或 脚本 ,网 络 爬 虫 一 般 
分 为 传统 疏 虫 和 聚焦 疏 虫 。 传 统 疏 虫 从 一 个 或 若干 初始 网 页 的 URL 开始 ,获得 初始 网 页 
上 的 URL, 在 抓 取 网 页 的 过 程 中 ,不 断 从 当前 页 面 上 抽取 新 的 URL 放 入 队列 ,直到 满足 系 
统 的 一 定 停止 条 件 。 聚 焦 怜 虫 需 要 根据 一 定 的 网 页 分 析 算 法 过 滤 与 主题 无 关 的 链接 ,保留 
有 用 的 链接 并 将 其 放 入 等待 抓 取 的 URL 队列 ,然后 根据 一 定 的 搜索 策略 从 队列 中 选择 下 
一 步 要 抓 取 的 网 页 URL, 重 复 上 述 过 程 ,直到 达到 系统 的 某 一 条 件 时 停止 。 聚 焦 候 虫 需要 
解决 三 个 主要 问题 : 对 抓 取 目 标的 描述 或 定义 ; 对 网 页 或 数据 的 分 析 与 过 滤 ; @ 对 
URL 的 搜索 策略 。 所 有 被 仆 虫 抓 取 的 网 页 将 会 被 系统 存储 ,进行 一 定 的 分 析 、 过 滤 , 并 建立 
索引 ,以 便 之 后 查询 和 检索 。 抓 取 目 标的 描述 和 定义 是 决定 网 页 分 析 算法 与 URL 搜索 策 
咯 如 何 制 订 的 基础 ,而 网 页 分 析 算 法 和 候选 URL 排序 算法 是 决定 搜索 引擎 所 提供 的 服务 
形式 和 息 虫 网 页 抓 取 行为 的 关键 所 在 。 

1. 网 页 搜索 策略 

网 页 的 抓 取 策略 可 以 分 为 深度 优先 、 广 度 优先 和 最 佳 优先 三 种 方法 。 深 度 优先 在 很 多 
情况 下 会 导致 伶 虫 的 陷 人 问题 ,目前 常见 的 是 广度 优先 和 最 佳 优先 方法 。 

广度 优先 搜索 策略 是 指 在 抓 取 过 程 中 ,在 完成 当前 层次 的 搜索 后 , 才 进 行 下 一 层次 的 搜 
索 。 该 算法 的 设计 和 实现 相对 简单 ,为 覆盖 尽 可 能 多 的 网 页 ,一般 使 用 广度 优先 搜索 方法 。 
也 可 将 广度 优先 搜索 策略 应 用 于 聚焦 怜 虫 中 ,其 基本 思想 是 认为 与 初始 URL 在 一 定 链接 
距离 内 的 网 页 具有 主题 相关 性 的 概率 很 大 。 另 外 一 种 方法 是 将 广度 优先 搜索 与 网 页 过 滤 技 
术 结 合 使 用 , 先 用 广度 优先 策略 抓 取 网 页 ,再 将 其 中 无 关 的 网 页 过 滤 掉 。 

最 佳 优先 搜索 策略 按照 一 定 的 网 页 分 析 算 法 预测 候选 URL 与 目标 网 页 的 相似 度 , 或 
与 主题 的 相关 性 ,并 选取 评价 最 好 的 一 个 或 几 个 URL 进行 抓 取 。 它 只 访问 经 过 网 页 分 析 
算法 预测 为 “有 用 ”的 网 页 。 因 为 最 佳 优先 策略 是 一 种 局 部 最 优 搜索 算法 ,所 以 需要 将 最 佳 
优先 结合 具体 的 应 用 进行 改进 ,以 跳出 局 部 最 优点 。 

2. 常用 网 络 爬 虫 工具 及 其 比较 

1) Nutch、Larbin 和 Heritrix 

Nutch 是 一 个 开源 Java 实现 的 类 似 Google 的 完整 网 络 搜索 引擎 解决 方案 , 它 提供 了 
运行 搜索 引擎 所 需 的 全 部 工具 ,包括 全 文 搜索 和 Web 怜 虫 ,是 Apache 的 子 项 目 之 一 。 

Larbin 是 一 种 开源 的 网 络 仆 虫 , 由 法 国 的 年 轻 人 Sébastien Ailleret 独立 开发 ,使 用 C++ 开 
发 。Larbin 目的 是 能 够 跟踪 页 面 的 URL 进行 扩展 的 抓 取 , 最 后 为 搜索 引擎 提供 广泛 的 数 
据 来 源 。Larbin 只 是 一 个 疏 虫 ,只 抓 取 网 页 ,一 个 简单 的 Larbin 疏 虫 可 以 每 天 获取 500 万 
的 网 页 ,非常 高 效 。 存 储 到 数据 库 及 建立 索引 等 其 他 操作 需 由 用 户 单独 完成 。 

Heritrix 是 一 个 由 Java 开发 的 .开源 的 网 络 爬 虫 ,用 户 可 以 使 用 它 来 从 网 上 抓 取 想 要 














的 资源 。 优 点 是 具有 良好 的 可 扩展 性 ,方便 用 户 实现 自己 的 抓 取 逻辑 ,用 来 获取 完整 的 、 精 
确 的 站 点 内 容 的 深度 复制 ,包括 获取 图 像 以 及 其 他 非 文 本 内 容 , 抓 取 并 存储 相关 的 内 容 。 扑 
虫 通过 Web 用 户 界 面 启动 .监控 ,调整 ,允许 弹性 定义 要 获取 的 URL。 

Heritrix 和 Nutch 一 样 ,二 者 均 为 Java 开源 框架 ,它们 实现 的 原理 基本 一 致 : 深度 遍历 
网 站 的 资源 ,将 这 些 资源 抓 取 到 本 地 ,使 用 的 方法 都 是 分 析 网 站 每 一 个 有 效 的 URL, 并 提交 
HTTP 请 求 , 从 而 获得 相应 结果 ,生成 本 地 文件 及 相应 的 日 志 信 息 等 。 

2) 三 者 的 比较 

(1) 从 功能 方面 来 说 ,Heritrix 与 Larbin 的 功能 类 似 , 是 一 个 纯粹 的 网 络 爬 虫 , 提 供 网 
站 的 镜像 下 载 ; 而 Nutch 是 一 个 网 络 搜索 引擎 框架 , 怜 取 网 页 只 是 其 功能 的 一 部 分 。 

(2) 从 分 布 式 处 理 来 说 ,Nutch 支持 分 布 式 处 理 ,另外 两 个 好 像 尚 不 支持 。 

(3) 从 扑 取 的 网 页 存储 方式 来 说 ,Heritrix 和 Larbin 都 是 将 爬 取 下 来 的 内 容 保 存 为 原 
始 类 型 的 内 容 , 而 Nutch 是 将 内 容 保存 到 其 特定 格式 的 segment 中 。 

(4) 对 扑 取 下 来 的 内 容 的 处 理 来 说 , Heritrix 和 Larbin 都 是 将 爬 取 下 来 的 内 容 不 经 处 
理 直 接 保存 为 原始 内 容 ,而 Nutch 对 文本 进行 了 包括 链接 分 析 、 正 文 提 取 、 建 立 索 引 
(Lucene 索引 ) 等 处 理 。 

(5) 从 疏 取 的 效率 来 说 ,Larbin 效率 较 高 , 它 使 用 C++ 来 实现 且 功 能 单一 。 表 2-2 归纳 
了 三 种 仆 虫 的 比较 关系 。 


表 2-2 三 种 爬虫 的 比较 


Crawler( 怜 虫 ) | ”开发 语言 功能 单一 支持 分 布 式 疏 取 效率 镜像 保存 











Nutch Java x eh 低 尖 
Larbin C++ V x 高 V 
Heritrix Java JV x 中 NS/ 

















3) 其 他 网 络 爬 虫 介绍 ( 见 表 2-3) 
表 2-3 其 他 网 络 看 虫 





名 称 描 述 





WebSPHINX 由 两 部 分 组 成 : 息 虫 工作 平台 和 WebSPHINX 类 包 , 它 是 一 个 Java 类 
WebSPHINX 包 和 Web 疏 虫 的 交互 式 开发 环境 。Web 息 虫 (也 叫 作 机 器 人 或 蜂 蛛 ) 是 可 以 自动 浏 
览 与 处 理 Web 页 面 的 程序 





WebLech 有 一 个 功能 控制 台 并 采用 多 线程 操作 , 它 是 一 个 功能 强大 的 Web 站 点 下 载 
WebLech 与 镜像 工具 。 它 支持 按 功 能 需求 来 下 载 Web 站 点 并 能 够 尽 可 能 模仿 标准 Web 浏览 
器 的 行为 





Arale 主要 为 个 人 使 用 而 设计 ,没有 像 其 他 仆 虫 一 样 关注 于 页 面 索 引 。Arale 能 够 下 








le 载 整 个 Web 站 点 或 来 自 Web 站 点 的 某 些 资源 ,还 能 够 把 动态 页 面 映射 成 静态 页 面 
J-Spider 是 一 个 完全 可 配置 和 定制 的 Web Spider 引擎 ,可 以 利用 它 来 检查 网 站 的 铺 
J-Spider 误 ,网 站 内 外 部 链接 检查 ,分 析 网 站 的 结构 ,下 载 整个 Web 站 点 ,提供 编写 ] Spider 插 
件 来 扩展 需求 的 功能 
spindle 是 一 个 构建 在 Lucene 工具 包 之 上 的 Web 索引 /搜索 工具 。 它 包括 一 个 用 于 
spindle 创建 索引 的 HTTP Spider 和 一 个 用 于 搜索 这 些 索 引 的 搜索 类 。 提 供 了 一 组 JSP 标 





签 库 ,可 开发 任何 Java 类 增加 搜索 功能 





续 表 





描 述 





Arachnid 


Arachnid 是 一 个 基于 Java 的 Web Spider 框架 。 它 包含 一 个 简单 的 HTML 剖析 器 ， 
能 够 分 析 包含 HTML 内 容 的 输入 流 。 通 过 实现 Arachnid 的 子 类 能 够 开发 一 个 简单 
的 Web Spider 并 能 够 对 Web 上 的 每 个 页 面 解析 之 后 增加 几 行 代码 调用 





LARM 


LARM 能 够 为 Jakarta Lucene 搜索 引擎 框架 的 用 户 提供 一 个 纯 Java 的 搜索 解决 方 
案 。 它 包含 能 够 为 文件 数据库 表格 建立 索引 的 方法 和 为 Web 站 点 建立 索引 的 疏 虫 





JoBo 


JoBo 是 一 个 用 于 下 载 整 个 Web 站 点 的 简单 工具 。 本 质 是 一 个 Web Spider。 与 其 他 
下 载 工 具 相 比较 , 它 的 主要 优势 是 能 够 自动 填充 Form 与 自动 登录 和 使 用 Cookies 来 
处 理 Session。 具 有 灵活 的 下 载 规则 来 限制 下 载 





snoics-reptile 


snoics-reptile 使 用 Java 开发 ,用 来 进行 网 站 镜像 抓 取 的 工具 ,将 通过 Get 方式 获取 的 
资源 全 部 抓 取 到 本 地 ,包括 网 页 和 各 种 类 型 的 文件 。 可 配制 文件 中 提供 的 URL 入 
口 ,可 完整 下 传 整个 网 站 ,并 保持 结构 不 变 





Web-Harvest 是 一 个 Java 开源 Web 数据 抽取 工具 。 它 能 够 收集 指定 的 Web 页 面 并 











Web-Harvest 从 这 些 页 面 中 提取 有 用 的 数据 。 主 要 运用 了 像 XSLT、XQuery、 正 则 表达 式 等 技术 来 
实现 对 Text/XML 的 操作 

i Larbin 是 个 基于 C++ 的 Web 疏 虫 工具 ,拥有 易于 操作 的 界面 ,不 过 只 能 跑 在 Linux 
下 ,在 一 台 普通 PC 下 Larbin 每 天 可 以 息 500 万 个 页 面 (需要 拥有 良好 的 网 络 ) 

Si Spiderpy 是 一 个 基于 Python 编码 的 开源 Web 疏 虫 工具 ,允许 用 户 收 集 文件 和 搜索 网 
站 ,并 有 一 个 可 配置 的 界面 

作 爪 鱼 数据 采 以 完全 自主 研发 的 分 布 式 云 计 算 平 台 为 核心 ,在 很 短 的 时 间 内 ,从 各 种 不 同 的 网 站 或 

集 系统 者 网 页 获取 大 量 的 规范 化 数据 ,实现 数据 自动 化 采集 .编辑 ,规范 化 ,摆脱 对 人 工 搜索 





及 收集 数据 的 依赖 


3. Python 爬虫 应 用 


Python 作为 


一 种 灵活 的 脚本 语言 ,经 常 被 用 于 网 络 爬 虫 中 , 疏 虫 架构 如 图 2-3 所 示 。 


的 虫 调度 端 用 于 启动 执行、 停止 候 虫 ,或 者 监视 仆 虫 中 的 运行 情况 。URL 管理 器 对 将 要 把 
取 的 URL 和 已 经 息 取 过 的 URL 这 两 个 数据 进行 管理 。 网 页 下 载 器 将 URL 管理 器 里 提供 
的 一 个 URL 从 对 应 的 网 页 下 载 并 存储 为 一 个 字符 串 , 这 个 字符 串 会 传送 给 网 页 解析 器 进 


行 解析 。 一 方面 ， 


网 页 解析 器 会 解析 出 有 价值 的 数据 ; 另 一 方面 ,由 于 每 一 个 页 面 都 有 很 多 


指向 其 他 页 面 的 网 页 ,这些 URL 被 解析 出 来 之 后 ,可 以 补充 进 URL 管理 器 。 








疏 虫 








URL 管 理 器 | 
CH 才 网 页 解析 器 价值 数据 











图 2-3 Python 仆 虫 架构 


【 例 2-2】 Python 息 虫 实现 。 


#coding=utf- 
import urllib 


8 


def getHtml (url): 





page = urllib.urlcpen (url) 

html = page.read() 

return html 
html = getHtml ("http://tieba.baidu.com/p/2738151262") 
print html 


注意 : Urllib 模块 提供 了 读 取 Web 页 面 数据 的 接口 ,可 以 像 读 取 本 地 文件 一 样 读 取 
WWW 和 FTP 上 的 数据 。 首 先 , 定 义 一 个 getHtml() 函 数 : urllib. urlopen() 方 法 用 于 打开 
一 个 URL 地 址 ; read() 方 法 用 于 读 取 URL 上 的 数据 ,向 getHtml() 函 数 传递 一 个 网 址 ,并 
把 整个 页 面 下 载 下 来 。 执 行程 序 就 会 把 整个 网 页 打印 输出 。 

Python 还 提供 了 非常 强大 的 正则 表达 式 , 正 则 表达 式 是 对 字符 串 操作 的 一 种 逻辑 公 
式 , 就 是 用 事先 定义 好 的 一 些 特定 字符 及 这 些 特定 字符 的 组 合 ,组 成 一 个 “规则 字符 串 ”, 这 
个 “规则 字符 串 ” 用 来 表达 对 字符 串 的 一 种 过 滤 逻 辑 , 因 此 可 以 使 用 正则 表达 式 对 抓 取 的 页 
面 进行 解析 。 

车 用 户 需 要 获取 某 贴吧 的 图 片 ,通过 分 析 网 页 源 代码 ,然后 用 正则 进行 匹配 , 则 上 述 代 
码 改 为 


import re 
import urllib 
def getHtml (url) : 
page = urllib.urlopen (url) 
html = page.read!() 
return html 
def getImg (html) : 
reg= Ir'src="(.+? \.jpg)" pic ext' 
imgre = re.compile (reg) 
imglist = re.findall (imgre,html) 
return imglist 
html = getHtml ("http://tieba.baidu.com/p/2460150866") 
Print getImg (html) 


re 模块 主要 包含 正则 表达 式 : re. compile() 可 以 把 正则 表达 式 编译 成 一 个 正则 表达 式 
对 象 。re. findall() 方 法 读 取 HTML 中 包含 imgre( 正 则 表达 式 ) 的 数据 。 
最 后 ,将 筛选 的 图 片 地 址 通过 for 循环 遍历 并 保存 到 本 地 。 


#coding=utf-8 
import urllib 
import re 
def getHtm] (url): 
page = urllib.urlopen (url) 
html = page.read() 
return html 
def getImg (html): 
reg= r'src= "(.+?2 \.jpg)" pic ext" 
imgre= re.compile(reg) 
imglist = re.findall (imgre,html) 
:| 


for imgurl in imglist: 
urllib.urlretrieve (imgurl,'® s.jpg's x) 
x+=1 
html = getHtml ("http://tieba.baidu.com/p/2460150866") 
print getImg (html) 
此 外 , Python 还 可 以 用 BeautifulSoup 模块 代替 正则 表达 式 。BeautifulSoup 是 用 
Python 写 的 一 个 HTML/XML 的 解析 器 , 它 可 以 很 好 地 处 理 不 规范 标记 并 生成 剖析 树 
(parse tree)。 它 提供 简单 又 常用 的 导航 (navigating) ,搜索 以 及 修改 前 析 树 的 操作 。 


2.1.5 数据 预 处 理工 具 Kettle 


Kettle 是 一 款 国 外 开源 的 ETL 工具 ,使 用 Java 编写 ,可 以 在 Windows、Linux、UNIX 
上 运行 ,绿色 无 须 安装 ,数据 抽取 高 效 稳定 。Kettle 中 文 名 称 叫 水 壶 ,该 项 目的 主 程序 员 
MATT 希望 把 各 种 数据 放 到 一 个 壶 里 ,然后 以 一 种 指定 的 格式 流出 。Kettle 允许 管理 来 自 
不 同 数据 库 的 数据 ,通过 提供 一 个 图 形 化 的 用 户 环境 来 描述 所 做 的 内 容 。 

Kettle 家 族 目 前 包括 4 个 产品 : Spoon、Pan、CHEF 和 Kitchen。 

Spoon 允许 用 户 通过 图 形 界面 来 设计 ETL 转换 过 程 。 

Pan 允许 用 户 批 量 运行 由 Spoon 设计 的 ETL 转换 ,例如 使 用 一 个 时 间 调 度 器 。Pan 是 
一 个 后 台 执行 的 程序 ,没有 图 形 界面 。 

CHEF 允许 用 户 创建 任务 (Job) 。 任 务 通过 允许 每 个 转换 、 脚 本 等 ,更 有 利于 自动 化 更 
新 数据 库 的 复杂 工作 。 

Kitchen 允许 用 户 批量 使 用 由 Chef 设计 的 任务 。Kitchen 也 是 一 个 后 台 运 行 的 程序 。 

Kettle 中 有 transformation .mapping 和 job 三 种 类 型 的 脚本 。transformation 完成 针 
对 数据 的 基础 转换 ; mapping 属于 特殊 的 transformation ,完成 对 一 个 功能 组 的 封装 ;job 
则 完成 整个 工作 流 的 控制 。Kettle 默认 transformation 文件 保存 后 缀 名 为 ktr,job 文件 保 
存 后 级 名 为 kjb。Kettle 作为 Pentaho 的 一 个 重要 组 成 部 分 ,现在 在 国内 项 目 应 用 上 逐渐 
增多 。 





22 大 数据 存储 和 处 理 技术 


2.2.1 数据 处 理 架 构 技 术 演进 


数据 处 理 的 过 程 经 历 了 从 传统 关系 型 数据 库 、 关 系 型 数据 库 集群 、MPP (Massively 
Parallel Processor, 大 规模 并 行 处 理 ) 数 据 库 到 Hadoop 分 布 式 数据 处 理 技术 的 技术 架构 演 
变 ,以 应 对 数据 量 逐 渐 增 加 和 数据 类 型 逐渐 复杂 的 海量 数据 存储 与 计算 处 理 。 

传统 的 关系 型 数据 库 将 数据 以 二 维 表 的 形式 进行 组 织 存储 ,解决 了 结构 化 数据 的 存储 
与 处 理 问题 ,但 由 于 是 单机 数据 处 理 , 因 此 存在 数据 处 理 瓶 颈 , 其 可 扩展 性 较 弱 , 只 能 针对 少 
量 结构 化 数据 进行 处 理 。 伴 随 近 年 来 信息 技术 的 快速 发 展 , 数 据 量 逐 渐 增 大 ,其 性 能 逐渐 满 
足 海 量 数据 存储 需求 ,因此 逐渐 开始 出 现 关 系 型 数据 库 集群 的 相关 技术 ,比如 MySQL 集群 、 
Oracle RAC 等 。 但 由 于 这 种 关系 型 数据 库 集群 是 Share Everything 的 架构 ,数据 是 共享 存 


储 ,因此 在 性 能 上 存在 IO 瓶颈 ,依旧 无 法 应 对 大 数据 级 数据 处 理 , 于 是 逐渐 出 现 了 以 
Greenplum 为 代表 的 MPP 数据 库 。 在 数据 库 非 共享 集群 中 ,每 个 节点 都 有 独立 的 磁盘 存 
储 系 统 和 内 存 系统 ,业务 数据 根据 数据 库 模型 和 应 用 特点 划分 到 各 个 节点 上 ,每 台数 据 节点 
通过 专用 网 络 或 者 商业 通用 网 络 互 相连 接 ,彼此 协同 计算 ,作为 整体 提供 数据 库 服务 。 非 共 
享 数据 库 集群 有 完全 的 可 伸缩 性 ,高 可 用 \ 高 性 能 .优秀 的 性 价 比 、 资 源 共 享 .良好 的 扩展 性 
等 优势 ,没有 过 多 的 性 能 瓶颈 。 但 无 论 是 关系 型 数据 库 还 是 MPP 数据 库 , 由 于 其 只 针对 结 
构 化 数据 ,并 没有 解决 半 结 构 化 、 非 结构 化 数据 存储 的 问题 ,因此 以 Hadoop 为 代表 的 分 布 
式 数 据 处 理 系 统 诞生 ,以 解决 结构 化 、 非 结构 化 海量 数据 的 存储 问题 。 


2.2.2 Hadoop 分 布 式 存储 和 计算 平台 


Hadoop 是 Apache 基金 会 的 一 个 开源 项 目 , 最 早起 源 于 网 络 搜索 引擎 Nutch ,由 Doug 
Cutting 于 2002 年 创建 。 主 要 由 分 布 式 文件 系统 HDFS 和 分 布 式 计算 引擎 MapReduce 组 
成 ,HDFS 是 对 Google GFS 的 开源 实现 , MapReduce 是 对 Google MapReduce 的 开源 

1. 分 布 式 文件 系统 HDFS 

HDFS, 全 称 Hadoop Distributed File System, 是 Hadoop 应 用 程序 中 的 分 布 式 存储 系 
统 。HDFS 是 一 个 可 以 构建 在 低 成 本 廉价 机 器 之 上 的 高 可 用 、 高 容错 、 可 扩展 的 分 布 式 文件 
系统 ,适用 于 一 次 写 人 、 多 次 查询 大 数据 量 数据 的 存储 。HDFS 是 一 个 主 /从 (Master/ 
Slave) 架 构 , 拥 有 NameNode 和 DataNode 两 种 节点 ,NameNode 负责 管理 文件 系统 的 元 数 
据 信息 ,维护 文件 系统 的 目录 结构 ,管理 文件 与 Block 块 之 间 的 关系 ,Block 块 与 DataNode 
之 间 的 关系 ,负责 接收 用 户 操作 请 求 , 而 DataNode 负责 存储 实际 的 数据 。 客 户 端 通过 
NameNode 和 DataNode 进行 交互 访问 文件 系统 。 从 内 部 来 看 ,文件 被 分 成 若干 个 数据 块 ， 
而 且 这 些 数 据 块 存放 在 一 组 DataNode 上 。NameNode 负责 执行 文件 系统 的 文件 或 目录 的 
打开 、 关 闭 、 重 命名 等 操作 ,同时 也 负责 数据 块 到 具体 DataNode 的 映射 。DataNode 负责 处 
理 客户 端 对 文件 的 读 写 请 求 ,并 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 和 复制 等 
工作 。 

HDFS 的 主要 特点 如 下 。 

(1) 大 文件 存储 : 由 于 HDFS 中 数据 块 的 元 数据 信息 都 存储 于 NameNode 上 ,而 
NameNode 只 有 一 个 , 当 存储 大 量 小 文件 时 会 产生 大 量 的 元 数据 信息 ,造成 NameNode 存 
储 空间 不 足 , 因 此 HDFS 更 适合 存储 大 文件 ,而 不 适合 存储 大 量 小 文件 。 

(2) 数据 块 存储 : HDFS 将 数据 以 Block 块 形 式 进行 存储 ,如 果 数 据 文件 大 到 超出 了 
Block 块 设 定 的 大 小 ,就 会 将 这 个 文件 按 Block 块 大 小 切 分 为 多 个 文件 块 存储 在 HDFS 中 。 

(3) 副本 机 制 : HDFS 集群 中 文件 一 般 会 存在 多 份 , 同 一 份 数据 会 被 存放 在 多 台 不 同 
的 机 器 上 ,以 保证 数据 的 数量 完整 性 ,具有 高 容错 性 。 

(4) 一 次 写 入 多 次 读 取 : 由 于 在 数据 写 入 时 数据 被 切 分 为 多 块 在 各 个 DataNode 上 分 
散 存储 ,因此 不 适合 对 写 和 人 数据 进行 修改 .适合 去 各 个 DataNode 上 读 取 数据 。 

2. 分 布 式 计算 框架 MapReduce 

MapReduce 是 一 种 并 行 编程 模型 ,是 对 并 行 计算 的 封装 ,通过 一 些 简 单 的 逻辑 即 可 完 
成 复杂 的 并 行 计算 ,编写 出 处 理 海量 数据 的 并 行 应 用 程序 。 其 核心 理念 是 将 一 个 大 的 运算 





任务 分 解 到 集群 每 个 节点 上 ,充分 运用 集群 资源 ,缩短 运行 时 间 。MapReduce 由 一 个 运行 
在 主 节 点 上 负责 任务 的 调度 并 监控 任务 的 执行 情况 的 JobTracker 和 运行 在 每 个 从 节点 上 
负责 具体 执行 主 节点 指派 的 任务 的 TaskTracker 组 成 。 

MapReduce 由 两 个 阶段 组 成 : Map 和 Reduce, 用 户 只 需要 实现 map() 和 reduce() 两 个 
函数 , 即 可 实现 分 布 式 计算 ,非常 简单 。 一 个 MapReduce 作业 (job) 通 常会 把 输入 的 数据 集 
切 分 为 若干 个 独立 的 数据 块 ,由 Map 任务 (task) 以 完全 并 行 的 方式 处 理 它们 。 框 架 会 先 对 
Map 的 输出 进行 排序 ,然后 把 结果 输入 给 Reduce 任务 。 

MapReduce 执行 步骤 如 下 。 

1) Map 任务 处 理 

(1) 读 取 输 入 文件 的 内 容 , 对 输入 文件 的 每 一 行 ,解析 成 key、value 对 。 每 一 个 键 值 对 
调用 一 次 map( 〇 函数 。 

(2) 对 输入 的 key、value 通过 写 逻 辑 处 理 ,转换 成 新 的 key、value 输出 。 

(3) 对 输出 的 key value 进行 分 区 。 

(4) 对 不 同 分 区 的 数据 ,按照 key 进行 排序 分组。 相同 key 的 value 放 到 一 个 集合 中 。 

(5) 对 分 组 后 的 数据 进行 归 约 (可 选 ) 。 

2) Reduce 任务 处 理 

(1) 对 多 个 Map 任务 的 输出 ,按照 不 同 的 分 区 ,通过 网 络 copy 到 不 同 的 Reduce 节点 。 

(2) 对 多 个 Map 任务 的 输出 进行 合并 、 排 序 。 写 reduce() 函 数 自己 的 迎 辑 , 对 输入 的 
key、value 进行 处 理 , 转 换 成 新 的 key、value 输出 。 

(3) 把 Reduce 的 输出 保存 到 文件 中 。 

3. YARN 资源 调度 框架 

由 于 在 Hadoop 1.0 中 难以 支持 MapReduce 之 外 的 计算 框架 ,缺乏 统一 的 资源 调度 管 
理 , 因 此 在 Hadoop 2.0 中 开始 出 现 YARN,YARN(Yet Another Resource Negotiator, 另 
一 种 资源 协调 者 ) 是 一 种 新 的 Hadoop 资源 管理 器 , 它 是 一 个 通用 资源 管理 系统 ,在 提供 
MapReduce 计算 的 同时 ,还 负责 集群 的 资源 管理 和 调度 , 自 带 多 用 户 调度 器 ,适合 不 同 用 
户 ,不同 计算 框架 共享 集群 环境 ,使 得 多 种 计算 框架 可 以 运行 在 一 个 集群 之 上 ,并 且 具 有 良 
好 的 扩展 性 和 高 可 用 性 。YARN 从 某 种 意义 上 来 说 应 该 算 作 一 个 云 操作 系统 , 它 负 责 集 群 
的 资源 管理 。 在 操作 系统 之 上 可 以 开发 各 类 应 用 程序 ,例如 批 处 理 MapReduce、 流 式 作 业 
Storm 以 及 实时 型 服务 Storm 等 。 这 些 应 用 可 以 同时 利用 Hadoop 集群 的 计算 能 力 和 丰富 
的 数据 存储 模型 ,共享 同一 个 Hadoop 集群 和 驻 留 在 集群 上 的 数据 。 此 外 ,这 些 新 的 框架 还 
可 以 利用 YARN 的 资源 管理 器 ,提供 新 的 应 用 管理 器 实现 。 

YARN 的 基本 思想 是 将 JobTracker 的 资源 管理 和 作业 调度 /监控 两 个 主要 功能 分 离 ， 
主要 方法 是 创建 一 个 全 局 的 ResourceManager (RM) 和 若干 个 针对 应 用 程序 的 
ApplicationMaster(AM)。ResourceManager 控制 整个 集群 并 管理 应 用 程序 向 基础 计算 资 
源 的 分 配 。 

4. 分 布 式 数 据 库 HBase 

HDFS 虽然 满足 了 海量 数据 的 存储 需求 ,缺点 是 不 能 很 好 地 对 所 存储 数据 进行 修改 和 
数据 的 实时 读 取 , 因 此 产生 了 一 个 构建 在 HDFS 之 上 的 分 布 式 数据 库 HBase。HBase 以 时 
间 惟 的 形式 保证 可 以 对 数据 进行 修改 ,以 列 簇 的 形式 满足 对 数据 的 实时 检索 。HBase 利用 


Hadoop HDFS 作为 其 文件 存储 系统 ,利用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 数 
据 ,利用 Zookeeper 作为 分 布 式 协同 服务 ,提供 高 可 靠 性 、 高 性 能 、 列 存储 、 可 伸缩 、 实 时 读 
写 , 适 用 于 非 结 构 化 数据 存储 的 面向 列 的 分 布 式 数据 存储 系统 。 

HBase 的 特点 如 下 。 

(1) 数据 量 大 且 无 类 型 : 一 个 表 可 以 有 上 亿 行 ,上 百 万 列 ( 列 多 时 ,插入 变 慢 ), 且 
HBase 中 的 数据 都 是 字符 串 , 没 有 类 型 。 

(2) 面向 列 且 列 稀 朴 : 面向 列 的 存储 和 权限 控制 , 列 独立 检索 。 对 于 为 空 的 列 ,并 不 占 
用 存储 空间 ,因此 表 可 以 设计 得 非常 稀 朴 。 

(3) 多 版 本 与 强 一 致 性 : 每 个 Cell 中 的 数据 可 以 有 多 个 版 本 ,默认 情况 下 版 本 号 自动 
分 配 ,是 单元 格 插入 时 的 时 间 戳 ,同行 数据 的 读 写 只 在 同一 台 Region Server 上 进行 以 保证 
一 致 性 。 

(4) 有 限 查 询 方式 与 高 性 能 随机 读 写 : 仅 支持 三 种 查询 方式 (单个 rowkey 查询 ,通过 
rowkey 的 range 查询 和 全 表 扫描 ) ,随机 读 写 效率 高 。 


2.2.3 流 式 数据 计算 引擎 Storm 


1. Storm 简介 

Hadoop 的 高 乔 吐 海量 数据 处 理 的 能 力 使 得 人 们 可 以 方便 地 处 理 海量 数据 。 但 是 ， 
Hadoop 的 缺点 也 和 它 的 优点 同样 鲜明 一 一 延迟 大 ,响应 缓慢 , 运 维 复杂 。Storm 是 以 弥补 
Hadoop 的 实时 性 为 目标 而 被 开发 出 来 的 。Storm 是 Twitter 开源 的 一 个 分 布 式 、 实 时 以 及 
具备 高 容错 的 实时 计算 系统 ,被 称 为 流 式 计算 框架 ,可 用 来 进行 分 布 式 实 时 分 析 .连续 计算 、 
在 线 机 器 学 习 、ETL 和 分 布 式 远程 过 程 调用 等 ,弥补 了 MapReduce 分 布 式 计算 系统 在 实时 
计算 中 的 不 足 。Storm 的 部 署 管理 非常 简单 ,性 能 出 众 。 主 要 功能 有 集群 控制 ,任务 分 配 、 
任务 分 发 与 监控 等 。 

Storm 带 有 流 式 计算 特点 。 

(1) 分 布 式 系 统 且 运 维 简单 : Storm 只 多 安装 两 个 依赖 库 , 可 横向 拓展 ,部 署 简 单 。 

(2) 高 度 容错 且 无 数据 丢失 : 模块 都 是 无 状态 的 ,随时 宕 机 重启 。Storm 的 ack 消息 追 
踪 框 架 和 复杂 的 事务 性 处 理 ,能 够 满足 很 多 级 别 的 数据 处 理 需求 。 

(3) 多 语言 : Storm 的 多 语言 可 临时 添加 ,提交 部 分 使 用 Java 实现 。 

Storm 被 广泛 应 用 于 实时 分 析 、 在 线 机 器 学 习 、 持 续 计 算 、 分 布 式 远程 调用 等 领域 。 例 
如 淘宝 实时 分 析 系 统 pora 可 实时 分 析 用 户 的 属性 ,反馈 给 搜索 引擎 。Storm 集群 实时 分 析 
日 志和 入 库 , 使 用 DRPC 聚合 成 报表 ,通过 历史 数据 对 比 等 判断 规则 ,触发 预警 事件 。 

2. Storm 集群 架构 与 处 理 模型 

除了 低 延 迟 ,Storm 的 Topology 灵活 的 编程 方式 和 分 布 式 协调 使 用 方便 。 用 户 属 性 分 
析 的 项 目 , 需 要 处 理 大 量 的 数据 。 虽 然 使 用 传统 的 MapReduce 处 理 是 个 不 错 的 选择 。 但 
是 ,处 理 过 程 中 有 个 步骤 需要 根据 分 析 结 果 采 集 网 页 上 的 数据 进行 下 一 步 的 处 理 。 这 对 
MapReduce 来 说 就 不 太 适 用 了 。 而 Storm 的 Topology 就 能 完美 解决 这 个 问题 。Storm 集 
群 的 架构 为 主 从 架构 ,由 一 个 主 节点 和 多 个 工作 节点 组 成 。 主 节点 叫 Nimbus, 负 责任 务 分 
配 、 代 码 分 发 .集群 监控 等 工作 。 工 作 节点 叫 Supervisor, 用 于 启动 Worker。 每 个 工作 节点 
运行 多 个 Worker, Worker 代表 的 是 进程 ,每 个 Worker 包含 多 个 Task,Task 代表 线程 。 首 




















先 客户 端 提交 Topolopy 到 Nimbus,Nimbus 建立 Topolopy 本 地 目录 ,根据 Topolopy 的 配 
置 计算 、 分 配 Task, 并 将 分 配给 Supervisor 的 任务 写 和 人 Zookeeper, 同 时 监控 Task 的 心跳 。 
随后 Supervisor 从 Zookeeper 获取 tasks 启动 Worker。 图 2-4 所 示 为 Storm 的 整体 运行 
架构 。 


Zookeeper 





| Supervisor | | Supervisor | | Supervisor | 


图 2-4 Storm 集群 架构 








Topology 用 于 封装 一 个 实时 计算 应 用 程序 的 逻辑 ,类 似 于 Hadoop 的 MapReduce 
Job ,由 Spout、Bolt 组 件 和 Streams 组 成 ,每 个 Spout、Bolt 在 集群 中 都 是 多 线程 运行 的 , 消 
息 的 传递 根据 StreamGrouping 完成 。 如 果 用 户 要 建立 自己 的 Topology, 需 要 利用 接口 
IRichBolt、IRichSpout 编写 自己 的 处 理 逻 辑 , 然 后 用 TopologyBuilder 建立 自己 的 
Topology, 最 后 打包 提交 到 Nimbus 节点 运行 。nimbus 根据 任务 数 和 节点 数 给 各 个 节点 分 
配 任务 ,并 把 任务 写 到 Zookeeper 上 ,各 个 节点 每 隔 一 段 时 间 去 Zookeeper 领取 自己 的 任 
务 , 若 超 过 一 定时 间 某 个 节点 在 Zookeeper 上 没有 心跳 , 则 认为 该 节点 死 掉 了 ,Zookeeper 会 
重新 分 配 任务 。 


2.2.4 Spark 分 布 式 内 存 计算 引擎 


1. Spark 简介 

Spark 是 Apache 开源 的 轻 量 级 语言 Scala 开发 的 基于 内 存 计 算 的 分 布 式 迭代 计算 框 
架 , 是 一 个 围绕 速度 、 易 用 性 和 复杂 分 析 构 建 的 大 数据 处 理 框 架 ,是 现 阶段 发 展 速度 最 快 .最 
活跃 的 分 布 式 大 数据 计算 框架 之 一 。Spark 运行 于 Java 虚拟 机 (JVM) 环 境 之 上 ,可 以 
Hadoop 分 布 式 文件 系统 HDFS 作为 数据 存储 系统 ,以 YARN、Mesos 等 进行 资源 调度 ,可 
与 MapReduce、Storm 等 多 种 计算 框架 共存 于 同一 集群 环境 中 。Spark 采用 基于 内 存 的 选 
代 计 算 ,将 计算 结果 保存 在 内 存 中 ,大 大 提高 了 数据 的 处 理 能 力 。 作 为 Hadoop 系统 的 补 
充 , 相 对 于 Hadoop 的 批量 数据 的 高 延迟 处 理 ,Spark 可 以 对 相对 小 数量 级 数据 进行 快速 处 
理 。 除 了 基于 核心 API 的 Map 和 Reduce 操作 ,Spark 生态 系统 还 提供 了 Spark Streaming 
以 进行 低 延 时 流 数 据 处 理 , 以 Spark SQL 对 SQL 进行 支持 大 大 提高 了 数据 查询 速度 ,以 可 
扩展 的 机 器 学 习 库 Spark MLlib 进行 机 器 学 习 , 以 Spark Graphx 进行 并 行 图 计算 。 目 前 支 
持 Scala Java、 Python Clojure、R 程序 设计 语言 。 

与 Hadoop 和 Storm 等 其 他 大 数据 和 MapReduce 技术 相 比 ,Spark 有 如 下 优势 。 

(1) Spark 为 我 们 提供 了 一 个 全 面 、 统 一 的 框架 ,用 于 管理 各 种 有 着 不 同性 质 ( 文 本 数 
据 、 图 表 数 据 等 ) 的 数据 集 和 数据 源 ( 批 量 数据 或 实时 的 流 数据 ) 的 大 数据 处 理 的 需求 。 








(2) Spark 可 以 将 Hadoop 集群 中 的 应 用 在 内 存 中 的 运行 速度 提升 100 倍 , 甚 至 能 够 将 
应 用 在 磁盘 上 的 运行 速度 提升 10 倍 。 

(3) Spark 自 带 了 一 个 超过 80 个 高 阶 操作 符 集合 ,可 以 快速 地 用 Java、Scala 或 Python 
编写 程序 , 且 它 在 shell 中 以 交互 式 地 查询 数据 。 除 了 Map 和 Reduce 操作 之 外 , 它 还 支持 
SQL 查询 、 流 数据 、 机 器 学 习 和 图 表 数 据 处 理 。 开 发 者 可 以 在 一 个 数据 管道 用 例 中 单独 使 
用 某 一 能 力 或 者 将 这 些 能 力 结合 在 一 起 使 用 。 

(4) 有 关 Spark 的 术语 如 下 。 

@ RDD(Resilient Distributed Datasets) 。RDD 称 为 弹性 分 布 式 数据 集 ,Spark 中 最 核 
心 的 模块 和 类 ,可 理解 为 一 个 大 的 集合 ,将 所 有 数据 都 加 载 到 内 存 中 ,方便 进行 多 次 重用 。 

@ Local 模式 和 Mesos 模式 。Spark 支持 Local 调用 和 Mesos 集群 两 种 模式 ,在 Spark 
上 开发 算法 程序 ,可 以 在 本 地 模式 调试 成 功 后 ,直接 改 用 Mesos 集群 运行 ,而 算法 不 需要 做 
任何 修改 。Spark 除了 本 地 模式 支持 多 线程 外 ,提供 Mesos 模式 保存 结果 到 分 布 式 或 者 共 
享 文件 系统 中 。 

@ Transformations 和 Actions。 对 于 RDD, 有 两 种 类 型 的 动作 ,一 种 是 Transformation ; 
另 一 种 是 Action。Transformation 返回 值 还 是 一 个 RDD, 它 使 用 了 链 式 调用 的 设计 模 
式 ,在 RDD 间 进行 分 布 式 变换 。Action 返回 值 不 是 一 个 RDD, 它 要 么 是 一 个 Scala 的 普 
通 集合 ,要 么 是 一 个 值 , 要 么 是 空 ,最 终 或 返回 到 Driver 程序 ,或 把 RDD 写 入 文件 系 
统 中 。 

2. Hadoop 和 Spark 

已 有 10 年 历史 Hadoop 被 看 作 是 首选 的 大 数据 集合 处 理 的 解决 方案 。MapReduce 也 
是 一 路 计算 的 优秀 解决 方案 ,数据 处 理 流 程 中 的 每 一 步 都 需要 一 个 Map 阶段 和 一 个 
Reduce 阶段 ,而 且 使 用 这 一 解决 方案 ,需要 将 所 有 用 例 都 转换 成 MapReduce 模式 。 因 此 ， 
对 需要 多 路 计算 和 算法 的 用 例 来 说 ,并 非 十 分 高 效 。 每 一 步 的 作业 输出 数据 必须 存储 到 分 
布 式 文件 系统 中 ,导致 存储 速度 变 慢 。 另 外 ,Hadoop 解决 方案 中 通常 会 包含 难以 安装 和 管 
理 的 集群 。 为 了 处 理 不 同 的 大 数据 用 例 , 还 需要 集成 多 种 不 同 的 工具 ,如 用 于 机 器 学 习 的 
Mahout 和 流 数 据 处 理 的 Storm。 如 果 想 要 完成 比较 复杂 的 工作 ,必须 将 一 系列 的 
MapReduce 作业 串联 起 来 顺序 执行 ,每 一 个 作业 都 是 高 时 延 的 ,而 Spark 则 允许 程序 开发 
者 使 用 有 向 无 环 图 (DAG) 开 发 复杂 的 多 步 数据 管道 ,而 且 支 持 跨 有 向 无 环 图 的 内 存 数 据 共 
享 ,以 便 不 同 的 作业 可 以 共同 处 理 同 一 个 数据 。 

Spark 可 看 作 是 Hadoop MapReduce 的 一 个 替代 品 ,Spark 运行 在 现 有 的 Hadoop 分 布 
式 文件 系统 基础 之 上 (HDFS) 提 供 额 外 的 增强 功能 , 它 支 持 将 Spark 应 用 部 署 到 现存 的 
Hadoop v1 集群 或 Hadoop v2 YARN 集群 甚至 是 Apache Mesos 之 中 。 

3. Spark 的 特性 

(1) Spark 通过 在 数据 处 理 过 程 中 成 本 更 低 的 洗 牌 (Shuffle) 方 式 , 将 MapReduce 提升 
到 一 个 更 高 的 层次 。 利 用 内 存 数 据 存储 和 接近 实时 的 处 理 能 力 ,Spark 比 其 他 大 数据 处 理 
技术 的 性 能 要 快 很 多 倍 , 支 持 比 Map 和 Reduce 更 多 的 函数 。Spark 可 以 将 Hadoop 集群 
中 的 应 用 在 内 存 中 的 运行 速度 提升 100 倍 , 甚 至 能 够 将 应 用 在 磁盘 上 的 运行 速度 提升 
10 售 。 

(2) Spark 支持 大 数据 查询 的 延迟 计算 ,可 帮助 优化 大 数据 处 理 流 程 中 的 处 理 步骤 。 





Spark 还 提供 高 级 的 API 以 提升 开发 效率 ,并 为 大 数据 解决 方案 提供 一 致 的 体系 架构 
模型 。 

(3) Spark 将 中 间 结 果 保 存在 内 存 中 而 不 是 将 其 写 入 磁盘 ,有 利于 多 次 处 理 同一 数据 
集 ,Spark 既 可 在 内 存 中 又 可 在 磁盘 上 执行 引擎 。 可 用 于 处 理 大 于 集群 内 存 容 量 总 和 的 数 
据 集 。 

(4) 优化 任意 操作 算 子 图 (Operator Graphs) ,提供 简明 、 一 致 的 Scala、Java 和 Python 
API。 提 供 交 互 式 Scala 和 Python Shell。 目 前 暂 不 支持 Java。 

4. Spark 框架 

Spark 体系 架构 包括 三 个 主要 组 件 : 数据 存储 \API 与 资源 管理 。 

(1) 数据 存储 : Spark 用 HDFS 文件 系统 存储 数据 。 它 可 用 于 存储 任何 兼容 于 
Hadoop 的 数据 源 , 包 括 HDFS、HBase、Cassandra 等 。 

(2) API: 利用 API, 应 用 开发 者 可 以 用 标准 的 API 接口 创建 基于 Spark 的 应 用 。 
Spark 提供 Scala、Java 和 Python 三 种 程序 设计 语言 的 API。 

(3) 资源 管理 : Spark 既 可 以 部 署 在 一 个 单独 的 服务 器 上 ,也 可 以 部 署 在 像 Mesos 或 
YARN 这 样 的 分 布 式 计算 框架 之 上 ,如 图 2-5 所 示 。 
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图 2-5 分 布 式 计算 框架 


作为 一 个 分 布 式 计算 框架 ,Spark 采用 了 MapReduce 模型 解决 大 数据 并 行 计算 的 问 
题 , 它 在 Map Reduce 和 Hadoop 的 基础 上 进行 了 改进 , 极 大 地 提升 了 MapReduce 的 效率 。 
Spark 的 支持 语言 是 Scala, 因 此 支持 函数 式 编程 ,这 使 得 Spark 的 代码 简洁 ,在 Spark 中 只 
需要 创建 相应 的 一 个 Map 函数 和 Reduce 函数 即 可 ,代码 量 大 大 降低 。 同 时 ,Spark 将 分 
布 式 运行 的 工作 都 交 给 了 Mesos, 从 而 使 自己 的 代码 能 够 精简 。 同 时 ，Spark 支持 两 种 分 
布 式 存 储 系统 一 一 HDFS 和 S3 。Spark 借助 Mesos 分 布 式 实现 对 文件 系统 的 读 取 和 写 入 
功能 。 

基于 Spark 的 典型 项 目 有 两 个 ,都 是 AMP 实验 室 出 品 。 第 一 个 是 Spark 内 部 的 Bagel 
(Pregel on Spark) ,可 以 用 Spark 进行 图 计算 。Bagel 自 带 了 一 个 例子 ,实现 了 Google 的 
PageRank 算法 ,实验 数据 在 http://download. freebase. com/wex/。 第 二 个 是 Shark 的 
Hive on Spark ,将 Hive 的 语法 迁移 到 Spark 上 ,将 SQL 翻译 为 Spark 的 Mapreduce 运行 ， 
并 且 可 以 直接 读 取 Hive 的 元 数据 库 和 对 应 数据 。 这 个 项 目 在 2012 年 的 SIGMOD 大 会 上 
获得 最 佳 Demo 奖 。 


2.2.5 大 数据 部 署 方 案 简介 


目前 ,大 数据 部 署 方案 主要 有 三 种 方式 : 套装 软件 搭配 自 组 硬件 、 软 硬件 整合 的 一 体 机 
和 采用 云端 巨 量 分 析 服 务 。 

1. 套装 软件 搭配 自 组 硬件 

目前 Hadoop、Greenplum 以 及 Aster Data 都 有 纯 软 件 产品 以 及 软 硬 件 整合 的 一 体 机 
产品 ,具有 自由 搭配 硬件 的 优势 ,软件 的 数据 处 理 效能 是 否 可 以 充分 发 挥 ,往往 与 所 搭配 的 
硬件 规格 .平台 架构 以 及 系统 调 校 有 关 。 因 此 ,对 于 IT 人 员 的 技术 能 力 ,通常 要 求 其 具有 
强大 的 系统 架构 规划 能 力 与 维护 能 力 。 

2. 软 硬 件 整 合 的 一 体 机 

相 较 于 软件 解决 方案 的 技术 门槛 ,以 硬件 形式 推出 的 一 体 机 ,不 仅 同 时 具有 软 硬 件 整合 
的 优势 ,更 重要 的 是 ,系统 效能 调 校 也 已 经 做 到 最 佳 化 。 对 企业 来 说 ,采用 一 体 机 可 以 大 幅 
度 节省 部 署 大 数据 处 理 平 台 的 时 间 ,后 续 的 维护 也 比较 轻松 。 不 过 ,一 体 机 配置 成 本 效益 较 
高 。 目 前 IBM Teradata、 惠 普 、 甲 骨 文 精诚 资讯 Etu 以 及 EMC 都 推出 了 大 数据 一 体 机 
产品 。 

3. 采用 云端 巨 量 分 析 服 务 

大 数据 处 理 平 台 并 非 一 定 得 通过 软 硬 件 厂商 取得 ,大 数据 处 理 可 部 署 在 云端 架构 系统 
环境 上 ,如 Amazon 的 云端 服务 AWS, 有 20 多 种 服务 。 其 中 ,EMR(Elastic MapReduce) 服 
务 可 以 让 用 户 省 去 部 署 Hadoop 从 集 的 工程 ,用 户 只 需要 把 MapReduce 程序 载 人 EC2 
(Elastic Compute Cloud) 虚 拟 机 执行 EMR 来 运算 即 可 。 缺 点 是 Amazon 的 云端 服务 模式 
处 理 数 据 只 能 满足 一 次 性 或 者 短期 的 数据 处 理 需求 , 受 大 数据 处 理 的 TB 级 的 数据 量 与 目 
前 的 网 络 频 宽 传输 速度 的 限制 ,无 法 应 付 企业 营运 大 数据 处 理 的 长 期 需求 。 

总 之 ,究竟 大 数据 要 用 哪 一 种 平台 来 处 理 , 除 了 对 各 种 技术 平台 的 掌握 能 力 之 外 ,还 要 
看 企业 对 大 数据 分 析 速 度 的 期 待 ,需要 多 快 就 要 产生 分 析 结 果 , 几 秒 钟 内 就 要 做 决策 判断 ， 
以 及 大 数据 的 应 用 是 否 要 做 长 时 间 的 大 量 数据 分 析 。 





23 大 数据 查询 和 分 析 技 术 


2.3.1 SQL-on-Hadoop 技术 


HDFS 解决 了 海量 数据 的 存储 问题 ,MapReduce、Spark 解决 海量 数据 的 计算 问题 ,为 
了 便于 原 有 使 用 传统 关系 型 数据 库 进 行 数据 处 理 的 人 员 进 行 海量 数据 处 理 , 逐 渐 出 现 了 各 
种 SQL-on-Hadoop 技术 。 目 前 主流 的 SQL-on-Hadoop 技术 包括 Hive、 Spark SQL、 
Impala 等 。 

1. Hive 

Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ,可 以 将 结构 化 的 数据 文件 映射 为 一 张 数 据 
库 表 ,并 提供 简单 的 SQL 查询 功能 ,可 以 将 SQL 语句 转换 为 MapReduce 任务 进行 运行 。 
其 优点 是 学 习 成 本 低 ,可 以 通过 类 SQL 语句 快速 实现 简单 的 MapReduce 统计 ,不 必 开 发 专 
门 的 MapReduce 应 用 ,十 分 适合 数据 仓库 的 统计 分 析 。 





Hive 并 不 适合 那些 需要 低 延 迟 的 应 用 ,例如 联机 事务 处 理 (OLTP)。Hive 构建 在 基于 
静态 批 处 理 的 Hadoop 之 上 ,Hive 查询 操作 过 程 严格 遵守 Hadoop MapReduce 的 作业 执行 
模型 , Hive 将 用 户 的 HiveQL 语句 通过 解释 器 转换 为 MapReduce 作业 提交 到 Hadoop 集群 

上 ,Hadoop 通常 有 较 高 的 延迟 并 且 在 作业 提交 和 调度 的 时 候 需要 大 量 的 开销 ,Hive 不 提供 
实时 的 查询 和 基于 行 级 的 数据 更 新 操作 。Hive 的 最 佳 使 用 场合 是 大 数据 集 的 批 处 理 作业 ， 
例如 网 络 日 志 分 析 。 

Hive 体系 结构 主要 由 用 户 接口 .元 数据 存储 、 解 释 器 编译 器 ,优化 器 ,执行 器 、Hadoop 
存储 计算 等 部 分 组 成 。Hive 将 元 数据 存储 在 数据 库 中 ,如 MySQL、Derby、 解 释 器 、 编 译 器 、 
优化 器 完成 HQL 查询 语句 从 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 以 及 查询 计划 的 生成 ,生成 的 
查询 计划 存储 在 HDFS 中 ,随后 由 MapReduce 调用 执行 。Hive 的 数据 存储 在 HDFS 中 ， 
大 部 分 查询 由 MapReduce 完成 。 

Hive 的 优点 如 下 : 

(1) 可 以 直接 使 用 存储 在 Hadoop 文件 系统 中 的 数据 ,可 有 不 同 的 存储 类 型 ,例如 , 纯 
文本 文件 .HBase 中 的 文件 。 支 持 索 引 以 加 快 数据 查询 。 

(2) 将 元 数据 保存 在 关系 数据 库 中 ,大 大 减少 了 在 查询 过 程 中 执行 语义 检查 的 时 间 。 

(3) 内 管 大 量 用 户 函 数 UDF 来 操作 时 间 、 字 符 串 和 其 他 的 数据 挖掘 工具 ,支持 用 户 扩 
展 UDF 函数 来 完成 内 置 函数 无 法 实现 的 操作 。 

(4) 类 SQL 的 查询 方式 ,将 SQL 查询 转换 为 MapReduce 的 Job 后 在 Hadoop 集群 上 
执行 。 

缺点 : Hive 是 运行 在 Hadoop 上 的 SQL-on-Hadoop 工具 。 但 是 MapReduce 所 用 的 大 
量 中间 磁 盘 落 地 过 程 消耗 了 大 量 的 IO, 降低 了 运行 效率 ,为 了 提高 SQL-on-Hadoop 的 效 
率 , 开 发 了 例如 MapR 的 Drill、Cloudera 的 Impala、Shark 的 SQL-on-Hadoop 工具 。 

2. Spark SQL 

随 着 Spark 的 发 展 ,由 于 Shark 对 Hive 有 太 多 依赖 ,如 采用 Hive 的 语法 解析 器 、 查 询 
优化 器 等 ,制约 了 Spark 的 One Stack Rule Them All 的 既定 方针 ,制约 了 Spark 各 个 组 件 
的 相互 集成 ,因此 提出 Spark SQL 项 目 。Spark SQL 抛弃 原 有 Shark 的 代码 ,汲取 了 Shark 
的 一 些 优点 ,如 内 存 列 存储 (In-Memory Columnar Storage) 、Hive 兼容 性 等 ,修改 Spark 的 
内 存 管 理 物理 计划 与 执行 三 个 模块 ,使 SQL 查询 的 速度 得 到 10 一 100 倍 的 提升 。Spark 
SQL 无 论 在 数据 兼容 .性 能 优化 与 组 件 扩展 方面 都 获得 了 极 大 的 方便 。 

(1) 数据 兼容 方面 : 不 但 兼容 Hive, 还 可 以 从 RDD、Parquet 文件 JSON 文件 中 获取 数 
据 , 支 持 获取 RDBMS 数据 以 及 Cassandra 等 NOSQL 数据 。 

(2) 性 能 优化 方面 : 除了 采取 内 存 列 存储 、 字 节 码 生成 等 优化 技术 外 ,还 引进 成 本 模型 
对 查询 进行 动态 评估 、 获 取 最 佳 物理 计划 等 ; 

(3) 组 件 扩展 方面 : 无 论 是 SQL 的 语法 解析 器 、 分 析 器 还 是 优化 器 都 可 以 重新 定义 , 进 
行 扩展 。 

Spark SQL 的 组 成 与 运行 ,总 体 上 由 4 个 模块 组 成 : Core、Catalyst、Hive 和 Hive- 
Thriftserver。 

(1) Core 处 理 数据 的 输入 /输出 ,从 不 同 的 数据 源 获取 数据 (RDD、Parquet、Json 等 ) , 

将 查询 结果 输出 成 schemaRDD。 





(2) Catalyst 处 理 查询 语句 的 整个 处 理 过 程 ,包括 解析 、 绑 定 、 优 化 .物理 计划 等 ,说 其 
是 优化 器 ,还 不 如 说 是 查询 引擎 。 

(3) Hive 对 Hive 数据 的 处 理 。 

(4) Hive-Thriftserver 提供 CLI 和 JDBC/ODBC 接口 。 

在 这 4 个 模块 中 ,Catalyst 处 于 核心 部 分 ,其 性 能 优 劣 将 影响 整体 的 性 能 。 类 似 于 关系 
型 数据 库 , Spark SQL 语句 也 是 由 Projection (al, a2,a3)、Data Source (tableA)、 Filter 
(condition) 组 成 ,分 别 对 应 SQL 查询 过 程 中 的 Result、Data Source、Operation。 同 时 Spark 
SQL 作为 处 理 结构 化 数据 的 Spark 组 件 , 提 供 了 一 个 叫 作 DataFrames 的 可 编程 抽象 数据 
模型 ,也 称 为 分 布 式 的 SQL 查询 引擎 ,DataFrame 是 由 命名 列 ( 类 似 关系 表 的 字段 定义 ) 组 
织 起 来 的 一 个 分 布 式 数据 集合 ,可 以 把 它 看 成 是 一 个 关系 型 数据 库 的 表 。DataFrame 可 以 
通过 结构 化 数据 文件 .Hive 的 表 、 外 部 数据 库 或 者 RDDs 等 多 种 来 源 创 建 。 利 用 
sqlContext 从 外 部 数据 源 加 载 数据 为 DataFrame, 然 后 利用 DataFrame 上 丰富 的 API 进行 
查询 转换。 最 后 ,将 结果 进行 展现 或 存储 为 各 种 外 部 数据 形式 。 

3. Impala 

Impala 是 Cloudera 公司 主导 开发 的 架构 于 Hadoop 之 上 的 开源 、 高 并 发 的 MPP 新 型 
查询 系统 , 它 提供 SQL 语义 ,能 查询 存储 在 Hadoop 的 HDFS 和 HBase 中 的 PB 级 大 数据 。 
已 有 的 Hive 系统 虽然 也 提供 了 SQL 语义 ,但 由 于 其 底层 执行 使 用 的 是 MapReduce 引擎 ， 
所 以 ,仍然 是 一 个 批 处 理 过 程 ,难以 满足 查询 的 交互 性 。Impala 是 完全 集成 的 ,用 以 平衡 
Hadoop 的 灵活 性 和 可 扩展 性 ,为 BI 数据 分 析 师 提供 低 延迟 、 高 并 发 的 交互 查询 。Impala 
具有 以 下 特点 。 

(1) Impala 的 最 大 特点 是 速度 快 。Impala 不 需要 把 中 间 结 果 写 和 人 磁盘 ,Impala 直接 通 
过 相应 的 服务 进程 来 进行 作业 调度 ,省 掉 了 大 量 的 1/O 开销 。 

(2) Impala 借鉴 了 MPP 并 行 数据 库 的 思想 ,抛弃 了 MapReduce 这 个 不 太 适 合 做 SQL 
查询 的 范式 ,可 完成 更 多 的 查询 优化 。 

(3) 通过 使 用 LLVM 来 统一 编译 运行 代码 ,避免 为 支持 通用 编译 而 带 来 的 不 必要 开 
销 。 用 C++ 实现 ,做 了 很 多 有 针对 性 的 硬件 优化 ,例如 使 用 SSE 指令 。 

(4) 将 传统 数据 库 的 SQL 支持 多 用 户 性 能 与 Hadoop 的 灵活 性 和 可 扩展 性 结合 起 来 ， 
它 通 过 利用 HDFS、HBase、Metastore、YARN、Sentry 等 标准 组 件 能 够 读 取 大 多 数 广泛 使 
用 的 文件 格式 ,例如 Parquet\Avro 和 RCFile, 以 维护 Hadoop 的 灵活 性 。 





2.3.2 OLAP 分 析 引 擎 Kylin 


Kylin 是 eBay 开发 的 一 套 MOLAP 系统 ,主要 用 于 支持 大 数据 生态 圈 的 数据 分 析 业 
务 , 它 主要 通过 预计 算 的 方式 将 用 户 设 定 的 多 维 立 方 体 缓存 到 HBase 中 ,通过 预计 算 的 方 
式 缓存 所 有 需要 查询 的 数据 结果 ,需要 大 量 的 存储 空间 ( 原 数 据 量 的 10 倍 以 上 )。 一 般 我 们 
要 分 析 的 数据 可 能 存储 在 关系 数据 库 (Mysql、Oracle, 一 般 是 程序 内 部 写 入 的 一 些 业务 数 
据 ,可 能 存在 分 表 甚至 分 库 的 需求 )、HDFS 数据 (结构 化 数据 ,一 般 是 业务 的 日 志 信息 ,通过 
Hive 查询 ) ,文本 文件 .Excel 等 。Kylin 主要 是 对 Hive 中 的 数据 进行 预计 算 ,利用 Hadoop 
的 Mapreduce 框架 实现 。Kylin 是 一 个 开源 的 分 布 式 OLAP 分 析 引 擎 ,基于 Hadoop 提供 
SQL 接口 和 OLAP 接口 ,支持 TB 到 PB 级 别 的 数据 量 。Kylin 的 一 些 特性 如 下 。 


(1) 可 扩展 的 超 快 OLAP 引擎 ,提供 标准 SQL 查询 接口 。 支 持 单机 或 集群 部 署 ,为 减 
少 在 Hadoop 上 百 亿 规模 数据 查询 延迟 而 设计 ; 提供 标准 SQL 接口 ,满足 Hadoop 之 上 的 
大 部 分 分 析 查 询 需 求 。 

(2) 交互 式 查询 能 力 ,用 户 能 够 在 Kylin 里 为 百 亿 以 上 数据 集 定义 数据 模型 并 构建 多 
维 立 方 体 。 

(3) 与 BI 工具 及 其 他 应 用 整合 ,提供 JDBC 及 ODBC 驱动 ,与 BI 工具 整合 。 

当前 已 经 有 超过 100 家 国内 外 公司 正式 使 用 Kylin 作为 其 大 数据 分 析 平 台 的 核心 , 包 
括 eBay、 微 软 、Expedia、 百 度 、 美 团 , 网 易 、 京 东 、 中 国 移动 .国泰 君 安 . 联 想 、 去 哪儿 等 。 
Apache Kylin 被 用 到 数据 仓库 、 用 户 行为 分 析 、 流 量 ( 日 志 ) 分 析 、 自 助 分 析 平 台 、 电 商 分 析 、 
广告 效果 分 析 、 实 时 分 析 、 数 据 服务 平 台 等 诸多 场景 。 


2.3.3 大 数据 分 析 技 术 Mahout 


Mahout 是 Apache 旗下 的 一 个 开源 项 目 , 是 基于 Hadoop 的 机 器 学 习 和 数据 挖掘 的 一 
个 分 布 式 框架 。Mahout 用 MapReduce 实现 了 部 分 数据 挖掘 算法 ,解决 了 并 行 挖掘 的 问题 。 
Mahout 提供 一 些 基于 Hadoop 的 分 布 式 可 扩展 的 机 器 学 习 领 域 经 典 算法 的 实现 ,能 够 高 效 
地 运行 在 云 计算 环境 中 , 旨 在 更 方便 快捷 地 创建 智能 应 用 程序 。Mahout 包括 聚 类 、 分 类 、 
推荐 过 滤 、 频 繁 子 项 挖掘 等 许多 实现 算法 ,将 原来 运行 于 单机 模式 的 算法 转化 为 
MapReduce 模式 实现 ,提升 了 算法 的 处 理 效率 和 可 处 理 的 数据 量 。 由 于 Mahout 的 许多 算 
法 都 需要 进行 迭代 运算 ,而 MapReduce 不 能 做 迭代 运算 ,所 以 后 期 Mahout 转移 到 了 
Spark 上 。 

Mahout 主要 包含 以 下 5 部 分 。 

(1) 频繁 挖掘 模式 : 挖掘 数据 中 频繁 出 现 的 项 集 。 

(2) 聚 类 : 将 诸如 文本 、 文 档 之 类 的 数据 分 成 局 部 相关 的 组 。 

(3) 分 类 : 利用 已 经 存在 的 分 类 文档 训练 分 类 器 ,对 未 分 类 的 文档 进行 分 类 。 

(4) 推荐 引擎 (协同 过 滤 ) : 获得 用 户 的 行为 ,并 从 中 发 现 用 户 可 能 喜欢 的 事物 。 

(5) 频繁 子 项 挖掘 : 利用 一 个 项 集 ( 查 询 记 录 或 购物 记录 ) 去 识别 经 常 一 起 出 现 的 
项 目 。 
Mahout 当前 已 实现 的 3 个 具体 的 机 器 学 习 任 务 , 也 是 实际 应 用 程序 中 常见 的 3 个 
领域 。 

(1) 协作 筛选 (CCF) : 协作 筛选 是 Amazon 等 公司 极为 推崇 的 一 项 技巧 , 它 使 用 评分 、 单 
击 和 购买 等 用 户 信息 为 其 他 站 点 用 户 提供 推荐 产品 。 

(2) 集群 : 对 于 大 型 数据 集 来 说 ,无 论 它们 是 文本 还 是 数值 ,一 般 都 可 以 将 类 似 的 项 目 
自动 组 织 或 集群 。 

(3) 分 类 : 分 类 (通常 也 称 为 归 类 ) 的 目标 是 标记 不 可 见 的 文档 ,从 而 将 它们 归 类 到 不 
同 的 分 组 中 。 作 为 开源 程序 ,Mahout 已 经 提供 了 大 量 功能 ,特别 是 在 集群 和 CF 方面 。 

Mahout 的 主要 特性 如 下 : 

(1) Taste CF。Taste 是 Sean Owen 在 SourceForge 上 发 起 的 一 个 针对 CF 的 开源 项 
目 ,在 2008 年 被 赠 予 Mahout。 








(2) 一 些 支持 Map-Reduce 的 集群 实现 ,包括 K-Means、 模 糊 K-Means、Canopy、 
Dirichlet 和 Mean-Shift 。 

(3) Distributed Naive Bayes 和 Complementary Naive Bayes 分 类 实现 。 

(4) 针对 进化 编程 的 分 布 式 适 用 性 功能 。 

(5) Matrix 和 矢量 库 。 


2.3.4 大 数据 分 析 技 术 Spark MLlib 


机 器 学 习 算 法 一 般 都 有 很 多 步骤 迭代 计算 的 过 程 ,需要 在 多 次 迭代 后 获得 足够 小 的 误 
差 或 者 足够 收敛 才 会 停止 ,迭代 时 如 果 使 用 Hadoop 的 MapReduce 计算 框架 ,每 次 计算 都 
需要 进行 读 / 写 磁盘 及 任务 的 启动 等 工作 ,这 会 导致 非常 大 的 1/O 和 CPU 消耗。 而 Spark 
基于 内 存 的 计算 模型 天 生 擅 长 迭代 计算 ,多 个 步骤 计算 直接 在 内 存 中 完成 ,只 有 在 必要 时 才 
会 操作 磁盘 和 网 络 , 所 以 说 Spark 是 机 器 学 习 的 理想 平台 。 

MLlib(Machine Learnig lib) 是 Spark 对 常用 的 机 器 学 习 算法 的 实现 库 , 也 包括 相关 的 
测试 和 数据 生成 器 。 图 2-6 所 示 为 MLlib 目前 支持 四 种 常见 的 机 器 学 习 问 题 : 分 类 、 回 归 、 
聚 类 和 协同 过 滤 。 
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图 2-6 MLlib 支持 的 机 器 学 习 库 


MLlib 基于 RDD(Resilient Distributed Dataset, 弹 性 分 布 式 数据 集 ) ,与 Spark SQL、 
GraphX、Spark Streaming 无 缝 集成 ,以 RDD 为 基石 ,4 个 子 框架 可 联手 构建 大 数据 计算 
中 心 。 

MLlib 是 MLBase 的 一 部 分 ,其 中 MLBase 分 为 四 部 分 : MLlib、MLI、ML Optimizer 和 
MLRuntime。 

ML Optimizer 会 选择 它 认 为 最 适合 的 已 经 在 内 部 实现 了 的 机 器 学 习 算 法 和 相关 参数 
来 处 理 用 户 输入 的 数据 ,并 返回 模型 或 别 的 帮助 分 析 的 结果 。 

MLI 是 一 个 进行 特征 抽取 和 高 级 ML 编程 抽象 的 算法 实现 的 API 或 平台 。 

MLlib 是 Spark 实现 一 些 常 见 的 机 器 学 习 算法 和 实用 程序 ,包括 分 类 、 回 归 、 聚 类 .协同 
过 滤 、 降 维 以 及 底层 优化 ,该 算法 可 以 再 扩充 ; MLRuntime 基于 Spark 计算 框架 ,将 Spark 
的 分 布 式 计算 应 用 到 机 器 学 习 领 域 。 

Spark MLlib 的 架构 主要 包含 三 部 分 : 底层 基础 ,包括 Spark 的 运行 库 、 和 矩阵 库 和 向 量 


库 ,提供 向 量 接口 和 垂 阵 接口 ,支持 本 地 的 密集 向 量 、 稀 朴 向 量 与 标量 向 量 ,同时 支持 本 地 
和 矩阵 和 分 布 式 矩 阵 ; 算法 库 包括 分 类 算法 、 推 荐 系统 、 聚 类 ,决策 树 和 协同 过 滤 等 算法 ，; 
实用 程序 部 分 包括 数据 的 验证 器 、Label 的 二 元 和 多 元 的 分 析 器 、 多 种 数据 生成 器 、 数 据 
加 载 器 。 


2.3.5 其 他 常用 分 析 语 言 比较 


数据 分 析 的 工具 分 为 数据 获取 数据 存储 、 数 据 管理 ,数据 计 算 、 数 据 分 析 、 数 据 展 示 等 
几 个 方面 ,常见 的 有 Excel、R、Weka、Python、SPSS、SAS,、SQL 等 。 

1. 其 他 常用 分 析 语言 简介 

R 是 一 款 用 于 数据 分 析 并 对 分 析 结 果 提 供 丰 富 图 形 化 展示 的 开源 软件 ,拥有 一 套 完整 
的 数组 和 和 矩阵 操作 运算 符 , 提 供 一 种 面向 对 象 的 简洁 高 效 的 统计 分 析 语 言 。 使 用 R 可 以 完 
成 各 种 类 型 数据 分 析 工 作 , 并 将 分 析 结 果 以 丰富 的 图 表 进 行 可 视 化 展示 。 

Weka 是 一 款 开源 的 非 商 业 性 质 的 免费 数据 挖掘 软件 ,集合 了 大 量 能 承担 数据 挖掘 任 
务 的 计算 机 学 习 算 法 ,包括 对 数据 进行 预 处 理 , 分 类 、 回 归 、 聚 类 、 关 联 规则 以 及 在 新 的 交互 
界面 上 的 可 视 化 。Weka 的 技术 基于 假设 数据 是 一 种 单个 文件 或 关联 的 ,其 中 每 个 数据 点 
都 被 许多 属性 标注 。 

Python 是 一 种 解释 型 的 、 面 向 对 象 的 \ 动 态 数 据 类 型 的 高 级 程序 设计 语言 。 自 从 20 世 
纪 90 年 代 初 Python 语言 诞生 至 今 ,已 逐渐 被 广泛 应 用 于 处 理 系统 管理 任务 和 Web 编程 。 
目前 Python 已 经 成 为 最 受 欢迎 的 程序 设计 语言 之 一 。 

SAS (Statistical Analysis System) 是 由 美国 North Carolina 州立 大 学 于 1966 年 开发 
的 统计 分 析 软 件 。SAS 是 一 个 模块 化 ,集成 化 的 大 型 应 用 软件 系统 , 它 由 数 十 个 专用 模块 
构成 ,功能 包括 数据 访问 、 数 据 储存 及 管理 \ 应 用 开发 .图 形 处 理 、 数 据 分 析 、 报 告 编 制 、 运 筹 
学 方法 .计量 经 济 学 与 预测 等 。 

SPSS(Statistical Product and Service Solutions) 是 IBM 公司 推出 的 一 系列 用 于 统计 学 
分 析 运 算 ,数据 挖掘、 预测 分 析 和 决策 支持 任务 的 软件 产品 及 相关 服务 的 总 称 , 有 Windows 
和 Mac OS X 等 版 本 。 作 为 世界 上 最 早 采用 图 形 菜单 驱动 界面 的 统计 软件 , 它 的 突出 特点 
就 是 操作 界面 极为 友好 ,输出 结果 美观 漂亮 。 它 将 几乎 所 有 的 功能 都 以 统一 、 规 范 的 界面 展 
现 出 来 。 使 用 Windows 的 窗口 ,SPSS 展示 各 种 管理 和 分 析 数 据 方法 的 功能 ,对 话 框 展示 出 
各 种 功能 选择 项 。 

MATLAB 是 matrix & laboratory 两 个 词 的 组 合 , 意 为 矩阵 工厂 (矩阵 实验 室 )。 是 由 
美国 MathWorks 公司 发 布 的 主要 面 对 科 学 计算 、 可 视 化 以 及 交互 式 程序 设计 的 高 科技 计 
算 环境 。 它 将 数值 分 析 、 和 矩阵 计算 、 科 学 数据 可 视 化 以 及 非 线性 动态 系统 的 建 模 和 仿真 等 诸 
多 强大 功能 集成 在 一 个 易于 使 用 的 视窗 环境 中 ,MATLAB 可 以 进行 矩阵 运算 ,绘制 函数 和 
数据 .实现 算法 、 创 建 用 户 界面 .连接 其 他 编程 语言 的 程序 等 ,主要 应 用 于 工程 计算 、 控 制 设 
计 、 信 号 处 理 与 通信 、 图 像 处 理 、 信 号 检测 .金融 建 模 设计 与 分 析 等 领域 。 为 科学 研究 .工程 
设计 以 及 必须 进行 有 效 数值 计算 的 众多 科学 领域 提供 了 一 种 全 面 的 解决 方案 ,并 在 很 大 程 
度 上 摆脱 了 传统 非 交 互 式 程序 设计 语言 (如 C、Fortran) 的 编辑 模式 。 





























2. 分 析 语 言 比 较 ( 见 表 2-4) 
表 2-4 常用 分 析 语言 比较 








序号 | 名 称 特 ”点 适用 场景 特点 频数 、 缺 点 
i | 一 般 非 大 量 数据 分 析 的 人 员 ，| 财务 ,金融 、 产 品 经 理 等 一 般 数据 量 | 较 高 , 作为 普通 
可 以 满足 大 部 分 需求 处 理 需 求 技能 





兼容 性 强 , 语 言 程序 化 也 强 ,在 | 最 常用 数据 分 析 工 具 之 一 ,兼容 性 
2 |R 语 言 | 编程 语言 方面 需要 投入 的 精力 | 强 ,R 的 优势 在 于 有 包罗 万 象 的 统计 | 高 频 工具 之 一 
比 Python 大 ,但 适用 面 较 广 “| 函数 可 以 调用 ,在 统计 方面 比较 突出 





以 语言 简单 ,注重 数据 分 析 的 | 编程 类 数据 分 析 , 如 文本 字符 等 非 
高 效 著称 ,尤其 是 在 文本 处 理 | 结构 化 数据 的 处 理 。Python 是 一 套 
等 数据 结构 化 方面 有 很 好 的 优 | 比较 平衡 的 语言 ,各 方面 都 可 以 。 
3 |Python | 势 。Python 的 优势 在 于 其 胶 | 无 论 是 对 其 他 语言 的 调用 和 数据 源 
水 语言 的 特性 ,一 些 底层 用 C | 的 连接 、 读 取 , 对 系统 的 操作 ,还 是 
写 的 算法 封装 在 Python 包 里 | 正则 表达 和 文字 处 理 ,Python 都 有 
后 性 能 非常 高 效 着 明显 优势 


高 频 工具 之 一 ， 
Python 没有 仿真 
库 , 计 算 速 度 还 
是 不 够 快 





数据 库 处 理 和 分 析 的 必 备 技 | 侧重 数据 库 方面 ,如 数据 仓库 等 , 作 
4 |SQL | 能 ,属于 数据 库 方面 的 基本 | 为 Oracle 等 数据 库 方面 的 基础 知识 | 高 频 工具 之 一 
工具 不 可 或 缺 





IBM SPSS-IBM Analytics, 统 
,， | 建 模 能 力 已 经 不 局 限于 统计 了 ,在 
5 |SPSS “| 计 分 析 功 能 强大 ,侧重 于 统计 预测 .机 器 学 习 方面 也 有 很 多 包 频率 一 般 








分 析 类 模型 

商业 分 析 与 商业 智能 软件 ,多 金融 投资 数据 建 

5 |SAS | 融 大 数据 分 析 半球 如 欣 守 模 常用 工具 之 一 

侧重 于 数据 本身 

7 | Matlab | 答 阵 计算 等 数学 专用 建 模 工具 | 强大 的 各 种 工具 包 ,以 及 仿真 能 力 | 的 计算 , 院 校 科 
研 用 得 较 多 

















(1) SAS.、SPSS 和 R 都 是 统计 类 软件 ,SAS 和 R 是 专业 性 比较 强 的 统计 软件 ,SPSS 是 
更 大 众 化 的 统计 软件 ,SAS 和 SPSS 是 收费 软件 ,R 是 免费 的 。MATLAB 是 科学 计算 软件 ， 
主要 用 于 数值 计算 和 仿真 。SAS 是 比较 专业 的 统计 软件 ,功能 强大 。SPSS 没有 SAS 强大 ， 
安装 文件 也 要 小 很 多 ,可 以 通过 界面 向 导 作 数 据 分 析 , 数 据 分 析 通 过 编程 完成 MATLAB 
是 很 强大 的 计算 软件 ,既是 一 门 语言 ,也 是 一 款 工具 。MATLAB 的 主要 功能 是 仿真 与 统 
计 , 既 可 以 数值 计算 ,也 可 以 符号 计算 ; 既 可 以 编程 实现 自己 的 算法 ,也 可 以 利用 它 提供 的 
各 种 内 置 函 数 编写 算法 。 

(2) 在 R、Python、WEKA 和 KNIME 四 个 比较 中 ,R 偏向 于 统计 ,优点 在 于 代码 的 产 出 
比 很 高 ,一行 代码 也 许可 以 帮助 实现 一 个 很 强大 的 算法 ;， Python 的 应 用 场景 更 广 ,数据 分 
析 只 是 其 中 一 个 功能 ,优点 是 从 底层 编写 算法 ,无 论 是 实现 过 程 还 是 运行 过 程 都 更 高 效 ; 
WEKA 是 用 Java 编写 的 ,运行 速度 上 有 优势 ,操作 较 简单 ,类 似 数据 仓库 的 操作 ; KNIME 
(Konstanz Information Miner) 由 Java 写成 .其 基于 Eclipse 并 通过 插件 的 方式 来 提供 更 多 


的 功能 ,如 数据 处 理 、 数 据 分 析 和 数据 勘探 平台 ,特点 是 用 户 友好 、 智 能 的 ,并 有 丰富 的 开源 
数据 集成 ,用 户 可 以 可 视 化 的 方式 创建 数据 流 或 数据 通道 ,有 选择 性 地 运行 一 些 或 全 部 的 分 
析 步 又 ,提供 的 接口 多 ,方便 算法 的 实现 。 

(3) 有 R 与 Python 比较 ,Python 不 是 统计 软件 ,而 是 一 种 可 以 用 来 做 各 种 事情 的 语言 。 
Python 与 R 不 同 ,Python 是 一 门 多 功能 的 较 平衡 的 自然 语言 式 语言 。 

代码 适合 维护 和 阅读 。 基 于 Python 众多 的 第 三 方 库 和 程序 API, 在 和 外 部 环境 进行 数 
据 交换 的 时 候 具 有 很 大 的 优势 。Python 的 优势 在 于 其 胶水 语言 的 特性 ,一 些 底层 用 C 写 的 
算法 封装 在 Python 包 里 后 性 能 非常 高 效 ,而 R 是 在 统计 方面 比较 突出 。R 的 优势 在 于 有 
包罗 万 象 的 统计 函数 可 以 调用 ,特别 是 在 时 间 序 列 分 析 方面 ,无 论 是 经 典 还 是 前 沿 的 方法 都 
有 相应 的 包 直 接 使 用 , 相 比 Python 在 这 方面 贫乏 不 少 。Python 与 R 相 比 速度 要 快 。 
Python 可 以 直接 处 理 上 GB 的 数据 ; R 不 行 ,R 分 析 数 据 时 需要 先 通 过 数据 库 把 大 数据 转 
化 为 小 数据 (通过 groupby) 才 能 交 给 R 做 分 析 , 因 此 R 不 可 能 直接 分 析 行 为 详 单 ,只 能 分 
析 统 计 结果 。Python 王 R 十 SQL/ Hive 数据 分 析 不 仅仅 是 统计 ,涉及 前 期 的 数据 收集 .数据 
处 理 ,数据 抽样 .数据 聚 类 ,以 及 比较 复杂 的 数据 挖掘 算法 .数据 建 模 等 任务 。 当 涉及 大 数据 
量 时 ,Python 基本 胜任 , 胜 于 尺 ,但 是 R 也 在 处 理 大 数据 量 时 不 断 地 改进 。 

3. 及 与 大 数据 平台 整合 

R 会 把 所 有 的 对 象 读 入 虚拟 内 存 中 ,以 提高 与 R 的 交互 速度 ,但 是 当面 对 大 数据 集 时 
由 于 数据 量 大 且 数 据 类 型 多 样 ,R 则 有 些 力 不 从 心 , 而 大 数据 平台 却 正好 具备 强大 的 数据 处 
理 计算 能 力 , 如 果 能 将 R 迁 移 到 大 数据 平台 ,将 R 的 统计 分 析 能 力 与 大 数据 平台 的 计算 能 
力 结合 ,将 能 更 好 地 应 对 海量 数据 挖掘 分 析 工 作 。 

1) RHadoop 

将 及 与 大 数据 处 理 平 台 相 结合 ,一 种 方法 是 打通 Java 和 R 的 连接 通道 ,让 Hadoop 调 
用 R 函数; 另 一 种 方法 是 利用 RevolutionAnalytics 公司 的 开源 产品 RHadoop。 

RHadoop 包含 三 个 R 包 一 一 rmr、rhdfs 和 RHBase, 分 别 对 应 Hadoop 系统 架构 中 的 
MapReduce、HDFS 和 HBase。RHadoop 实现 了 R 与 Hadoop 的 结合 ,使 用 R 语言 完成 
MapReduce 算法 来 代替 Java 的 MapReduce 实现 .充分 利用 R 优秀 的 统计 分 析 能 力 完成 大 
数据 量 的 快速 数据 处 理 和 分 析 。 

2) SparkR 

SparkR 是 将 R 构建 于 Spark 之 上 ,为 Apache Spark 提供 了 轻 量 的 前 端 ,用 户 通过 
SparkR 提供 的 Spark RDD 在 集群 中 运行 R 脚本 进行 Job 任务 。R 扩展 了 Spark 在 机 器 学 
习 方 面 的 Lib 库 ,使 得 Spark 可 以 通过 R 支持 更 多 的 机 器 学 习 算 法 ,用 户 可 借助 Spark 集群 
进行 更 加 丰富 的 数据 挖掘 工作 。 

SparkR 的 核心 是 SparkR Data Frames, 是 一 个 基于 Spark 的 分 布 式 数据 框架 。 在 概念 
上 和 关系 型 数据 库 中 的 表 类 似 ,或 者 和 R 语言 中 的 Data Frame 类 似 。Data Frames 作为 及 
的 数据 处 理 基本 对 象 ,其 概念 已 经 被 扩展 到 很 多 的 语言 。 

图 2-7 所 示 为 SparkR 的 整体 架构 ,SparkR 主要 由 两 部 分 组 成 : SparkR 包 和 JVM 后 
端 。SparkR 包 是 一 个 R 扩 展 包 , 在 R 运行 时 环境 里 提供 了 RDD 和 Data Frame API。 
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图 2-7 SparkR 整体 架构 


24 大 数据 可 视 化 技术 


1. 数据 可 视 化 基本 概念 

数据 可 视 化 是 关于 数据 视觉 表现 形式 的 科学 技术 研究 。 可 视 化 技术 是 利用 计算 机 图 形 
学 及 图 像 处 理 技术 ,将 数据 转换 为 图 形 或 图 像 形式 显示 到 屏幕 上 ,并 进行 交互 处 理 的 理论 、 
方法 和 技术 。 它 涉及 计算 机 视觉 .图像 处 理 、 计 算 机 辅助 设计 、 计 算 机 图 形 学 等 多 个 领域 ,成 
为 一 项 研究 数据 表示 、 数 据 处 理 、 决 策 分 析 等 问题 的 综合 技术 。 数 据 可 视 化 伴随 着 大 数 
据 时 代 的 到 来 而 兴起 ,可 视 化 分 析 是 大 数据 分 析 不 可 或 缺 的 一 种 重要 手段 和 工具 ,只 有 
在 真正 理解 可 视 化 概念 本 质 后 ,才能 更 好 地 研究 并 应 用 其 方法 和 原理 ,获得 数据 背后 隐 
藏 的 价值 。 

数据 可 视 化 的 过 程 是 利用 一 定 的 工具 及 算法 对 数据 空间 的 数据 进行 定量 推演 及 计算 之 
后 ,对 多 维 数据 进行 切片 块 、 旋 转 等 动作 进行 数据 分 析 , 再 对 大 型 数据 集中 的 数据 以 图 形 图 
像 方式 表示 ,并 利用 数据 分 析 和 开发 工具 发 现 其 中 的 未 知 信息 。 

数据 可 视 化 可 以 增强 数据 的 呈现 效果 ,方便 用 户 以 更 加 直观 的 方式 观察 数据 ,进而 发 现 
数据 中 隐藏 的 信息 。 可 视 化 应 用 领域 十 分 广泛 ,主要 涉及 网 络 数据 可 视 化 交通 数据 可 视 
化 文本 数据 可 视 化 .数据 挖掘 可 视 化 .生物 医药 可 视 化 、 社 交 可 视 化 等 领域 。Card 提出 的 
可 视 化 模型 ,将 数据 可 视 化 过 程 分 为 数据 预 处 理 、 绘 制 . 显 示 和 交互 四 个 阶段 ,得 到 广泛 认 
同 。 依 照 shneiderman 提出 的 分 类 ,可 视 化 的 数据 分 为 一 维 数据 、 二 维 数据 ,三 维 数据 、 高 维 
数据 \ 时 态 数 据 、 层 次 数据 和 网 络 数 据 。 其 中 ,高 维 数据 、 层 次 数据 、 网 络 数据 、 时 态 数 据 是 当 
前 可 视 化 的 研究 热点 。 

高 维 数据 目前 已 经 成 为 计算 机 领域 的 研究 热点 ,所 谓 高 维 数据 是 指 每 一 个 样本 数据 包 
含 p(p 宇 4) 维 空间 特征 。 人 类 对 数据 的 理解 主要 集中 在 低 维度 的 空间 表示 上 ,如 果 单 从 高 


维 数据 的 抽象 数据 值 上 进行 分 析 很 难得 到 有 用 的 信息 。 相 对 于 对 数据 的 高 维 模拟 , 低 维 空 
间 的 可 视 化 技术 显得 更 简单 直接, 而且 高 维 空间 包含 的 元 素 相 对 于 低 维 空间 来 说 更 加 复 
杂 ,容易 造成 人 们 的 分 析 混乱 。 将 高 维 数据 信息 映射 到 二 三 维 空间 ,方便 高 维 数据 进行 人 与 
数据 的 交互 ,有 助 于 对 数据 进行 聚 类 以 及 分 类 。 高 维 数据 可 视 化 的 研究 主要 包含 数据 变化 
和 数据 呈现 两 个 方面 。 

层次 数据 具有 等 级 或 层级 关系 。 层 次 数据 的 可 视 化 方法 主要 包括 节点 链接 图 和 树 图 两 
种 ,其 中 树 图 (treemap) 由 一 系列 的 嵌 套 环 \ 块 来 展示 层次 数据 。 

网 络 数据 表现 为 更 加 自由 、 更 加 复杂 的 关系 网 络 。 分 析 网 络 数据 的 核心 是 挖掘 关系 网 
络 中 的 重要 结构 性 质 ,如 节点 相似 性 、 关 系 传递 性 、 网 络 中 心性 等 ,网 络 数 据 可 视 化 方法 应 清 
晰 表达 个 体 间 关系 以 及 个 体 的 聚 类 关系 。 主 要 布局 策略 包含 节点 链接 法 和 相 邻 矩阵 法 。 为 
了 能 展示 更 多 的 节点 内 容 ,一些 基 于 “焦点 十 上 下 文 ” 技 术 的 交互 方法 被 开发 出 来 ,包括 “ 鱼 
眼 ” 技 术 、 几 何 变 形 、 语 义 缩放 、 远 离 焦点 的 节点 聚 类 技术 等 。 
时 间 序 列 数据 是 指 具 有 时 间 属 性 的 数据 集 ,针对 时 间 序 列 数据 的 可 视 化 方法 包含 线形 
图 、 动 画 、 堆 积 图 \ 时 间 线 和 地 平 线 图 。 

2. 数据 可 视 化 的 标准 

为 实现 信息 的 有 效 传达 ,数据 可 视 化 应 兼顾 美学 与 功能 ,直观 地 传达 出 关键 的 特征 , 便 
于 挖掘 数据 背后 隐藏 的 价值 。 可 视 化 技术 应 用 标准 应 该 包含 以 下 4 个 方面 。 

(1) 直观 化 : 将 数据 直观 、 形 象 地 呈现 出 来 。 

(2) 关联 化 : 突出 地 呈现 出 数据 之 间 的 关联 性 。 

(3) 艺术 性 : 使 数据 的 呈现 更 具有 艺术 性 ,更 加 符合 审美 规则 。 

(4) 交互 性 : 实现 用 户 与 数据 的 交互 ,方便 用 户 控制 数据 。 

3. 常用 的 数据 可 视 化 工具 

目前 常用 的 数据 可 视 化 工具 有 很 多 , 表 2-5 总 结 了 一 些 常 用 可 视 化 工具 。 


表 2-5 常用 可 视 化 工具 





























分 级 | 工 具 可 视 化 应 用 优点 不 足 
入门 级 | Ed 报表 统计 图 表 等 方面 ”| 快速 .方便 样式 选择 范围 有 限 
Google Chart ”| 动态 图 表 .丰富 的 现成 的 | 丰富 的 图 表 选 择 \ SVG | 客户 端 动态 图 生成 
API 图 表 类 型 CANVAS、VML 浏览 器 “| 会 引发 问题 
| we 在 展现 不 同 效果 
Flot jQuery JavaScript 绘图 库 | 操作 简单 .定制 .灵活 时 ,难度 会 增加 
- SVG/VML 矢量 输 出格 | 速度 比 面 布 创建 林 
oo RaphaaL 在 线 输出 图 表 .图 形 等 式 ,分 辩 率 高 格 化 图 像 慢 
可 视 化 | D3 《DaeDrven | 复杂 的 可 视 化 图 形 复杂 的 交互 ,展现 效果 好 | 不 够 简洁 
Documents) 
| 信息 可 视 化 图 形 .信息 图 - 
Visually he te 大 量 的 信息 图 模板 功能 有 一 定 限制 
Crossfilier 常用 a 方便 快速 查看 ,操作 有 交 
人 or 人 上 | 交互 式 GUI 图 形 图 表 。 | 万 人 操作 复杂 性 增加 


















































控 扬 
续 表 
分 级 | 工 具 可 视 化 应 用 优点 不 足 
Modest Maps ”| 基本 的 地 图 功能 不 型 ,拓展 性 好 基本 形式 非常 有 限 
Leaflet 移动 端 平面 地 图 相配 轻便 .灵活 ,备份 
Polymaps 网 络 地 图 功能 强大 的 光源 席 ; 全 方位 入 
a 息 可 视 化 
文档 注释 不 完善 ， 
工具 | OpenLayers 地 图 库 强大 的 地 图 库 ,可 靠 性 高 操作 难度 高 
ee | 处 理 世界 范围 的 数 
Kartogragh 。 | 区 域 地 图 绘制 标记 线 、 定 义 , 更 多 的 选择 | 入 丰富 汶 因 并 
CartoDB 亏 图 库 轻易 结合 表格 数据 与 地 图 | 需要 按 月 付费 
Processing 是 一 
款 适 合 于 编程 进 语法 简易 ,大 量 实例 和 
阶 的 常用 可 视 化 | 开源 的 编程 语言 代码 
编程 | 工具 
吉 孟 | 及 eit ta 强大 社区 和 组 件 库 复杂 ,学 习 难 度 大 
Weka 机 器 学 习 .数据 挖 所 免费 
Gephi 社交 图谱 数据 可 视 化 














其 中 ,Gephi 是 一 款 开源 的 跨 平 台 的 基于 JVM 的 复杂 网 络 分 析 软 件 , 可 用 作 和 链接 分 析 、 
探索 性 数据 分 析 、 生 物 网 络 分 析 及 社交 网 络 分 析 。Gephi 支持 的 数据 输入 格式 包含 GEXF 、 
GDF、GML 、GraphML 、Pajek NET, GraphViz DOT, CSV, UCINET DL Tulip TPL、 
Netdraw VNA 、Spreadsheet 等 。 

ArcGIS 产品 线 为 用 户 提供 一 个 可 伸缩 的 全 面 的 GIS 平台 。 具 有 强大 的 地 图 制作 、 空 
间 数 据 管理 空间 分 析 、 空 间 信 息 整合 发布 与 共享 的 能 力 。 

当然 ,Tableau、SAS、IBM、SAP、Oracle、Qlik、Microsoft 等 是 目前 商业 主流 的 数据 可 视 
化 工具 提供 者 。 

4. 数据 可 视 化 面临 的 挑战 

伴随 着 大 数据 时 代 的 到 来 ,数据 可 视 化 日 益 受 到 关注 ,可 视 化 技术 也 日 益 成 熟 。 然 而 ， 
数据 可 视 化 仍 存在 许多 问题 , 且 面 临 巨大 的 挑战 。 

(1) 视觉 噪声 。 在 数据 集中 ,大 多 数 数据 具有 极 强 的 相关 性 ,无 法 将 其 分 离 作为 独立 的 
对 象 显示 。 

(2) 信息 丢失 。 减 少 可 视 数 据 集 的 方法 可 行 , 但 会 导致 信息 的 丢失 。 

(3) 大 型 图 像 感知 。 数 据 可 视 化 不 单单 受 限于 设备 的 长 度 比 及 分 辨 率 , 也 受 限于 现实 
世界 的 感受 。 

(4) 高 速 图 像 变换 。 用 户 虽然 能 够 观察 数据 , 却 不 能 对 数据 强度 变化 做 出 反应 。 

(5) 高 性 能 要 求 。 静 态 可 视 化 对 性 能 要 求 不 高 .可 视 化 速度 较 低 ,而 动态 可 视 化 对 性 能 

数据 可 视 化 面临 的 挑战 主要 指 可 视 化 分 析 过 程 中 数据 的 呈现 方式 ,包括 可 视 化 技术 和 
信息 可 视 化 显示 。 目 前 ,数据 简约 可 视 化 研究 中 ,高 清晰 显示 、 大 屏幕 显示 、 高 可 扩展 数据 投 
影 .维度 降解 等 技术 都 试图 从 不 同 角度 解决 这 个 难题 。 


可 感知 的 交互 的 扩展 性 是 大 数据 可 视 化 面临 的 挑战 之 一 。 从 大 规模 数据 库 中 查询 数据 
可 能 导致 高 延迟 ,使 交互 率 降 低 。 在 大 数据 应 用 程序 中 ,大 规模 数据 及 高 维 数据 使 数据 可 视 
化 变 得 十 分 困难 。 在 超大 规模 的 数据 可 视 化 分 析 中 ,我 们 可 以 构建 更 大 、 更 清晰 的 视觉 显示 
设备 ,但 是 人 类 的 敏锐 度 制约 了 大 屏幕 显示 的 有 效 性 。 由 于 人 和 机 器 的 限制 ,在 可 预见 的 未 
来 ,大 数据 的 可 视 化 问题 会 是 一 个 重要 的 挑战 。 

5. 数据 可 视 化 技术 的 发 展 方向 

(1) 可 视 化 技术 与 数据 挖掘 有 着 紧密 的 联系 。 数 据 可 视 化 可 以 帮助 人 们 洞察 数据 背后 
隐藏 的 潜在 信息 ,提高 了 数据 挖掘 的 效率 ,因此 ,可 视 化 与 数据 挖掘 紧密 结合 是 可 视 化 研究 
的 一 个 重要 发 展 方向 。 

(2) 可 视 化 技术 与 人 机 交互 有 着 紧密 的 联系 。 实 现 用 户 与 数据 的 交互 ,方便 用 户 控 制 
数据 ,更 好 地 实现 人 机 交互 是 可 视 化 研究 的 一 个 重要 发 展 方向 。 

(3) 大 数据 时 代 , 大 规模 、 高 纬度 、 非 结构 化 数据 层出不穷 ,可 视 化 与 大 规模 、 高 维度 、 非 
结构 化 数据 有 着 紧密 的 联系 。 如 何 将 这 样 的 数据 以 可 视 化 形式 完美 地 展示 出 来 ,是 可 视 化 
研究 的 一 个 重要 发 展 方向 。 








25 主流 大 数据 分 析 平 台 简介 


1. Hadoop 

Yahoo 的 工程 师 Doug Cutting 和 Mike Cafarella 在 2005 年 合作 开发 了 分 布 式 计算 系 
统 Hadoop。 后 来 ,Hadoop 被 贡献 给 Apache 基金 会 ,成 为 Apache 基金 会 的 开源 项 目 。 
Hadoop 采用 Map Reduce 分 布 式 计算 框架 ,并 根据 GFS 开发 了 HDFS 分 布 式 文件 系统 , 根 
据 Big Table 开发 了 HBase 数据 存储 系统 。 尽 管 和 Google 内 部 使 用 的 分 布 式 计算 系统 原 
理 相同 ,但 是 Hadoop 在 运算 速度 上 依然 达 不 到 Google 论文 中 的 标准 。 不 过 ,Hadoop 的 开 
源 特性 使 其 成 为 分 布 式 计算 系统 的 事实 上 的 国际 标准 。Yahoo、Facebook、Amazon 以 及 国 
内 的 百度 、 阿 里 巴巴 等 众多 互联 网 公司 都 以 Hadoop 为 基础 搭建 自己 的 分 布 式 系 统 架 构 。 

2. Spark 

Spark 是 Apache 基金 会 的 开源 项 目 , 它 由 加 州 大 学 伯克利 分 校 的 实验 室 开发 ,是 另外 
一 种 重要 的 分 布 式 计算 系统 。 它 在 Hadoop 的 基础 上 进行 了 一 些 架 构 上 的 改良 。Spark 与 
Hadoop 最 大 的 不 同 点 在 于 , Hadoop 使 用 硬盘 来 存储 数据 ,而 Spark 使 用 内 存 来 存储 数据 ， 
因此 Spark 可 以 提供 超过 Hadoop 100 倍 的 运算 速度 。 但 是 ,由 于 内 存 断 电 后 会 丢失 数据 ， 
故 Spark 不 能 用 于 处 理 需 要 长 期 保存 的 数据 。 

3. Storm 

Storm 是 Twitter 主推 的 分 布 式 计算 系统 , 它 由 Back Type 团队 开发 ,是 Apache 基金 
会 的 旷 化 项 目 。 它 在 Hadoop 的 基础 上 提供 了 实时 运算 的 特性 ,可 以 实时 地 处 理 大 数据 流 。 
不 同 于 Hadoop 和 Spark,Storm 不 进行 数据 的 收集 和 存储 工作 , 它 直 接 通 过 网 络 实时 地 接 
收 数据 并 且 实 时 地 处 理 数 据 , 然 后 直接 通过 网 络 实时 地 传 回 结果 。 

4. Samza 

Samza 是 由 LinkedIn 开源 的 一 项 技术 ,已 经 成 为 Apache 的 顶级 项 目 。 它 是 一 个 分 布 
式 流 处 理 框架 ,专门 用 于 实时 数据 的 处 理 , 非 常 像 Twitter 的 流 处 理 系统 Storm。 不 同 的 是 
Samza 基于 Hadoop ,而 且 使 用 了 LinkedIn 自家 的 Kafka 分 布 式 消息 系统 。 





Samza 非常 适用 于 实时 流 数据 处 理 的 业务 ,如 数据 跟踪 、 日 志 服 务 与 实时 服务 等 应 用 ， 
它 能 够 帮助 开发 者 进行 高 速 消息 处 理 , 同 时 还 具有 良好 的 容错 能 力 。 在 Samza 流 数据 处 理 
过 程 中 ,每 个 Kafka 集群 都 与 一 个 能 运行 YARN 的 集群 相连 并 处 理 Samza 作业 。 

5. Ethink 数据 智能 分 析 平 台 一 一 一 站 式 大 数据 分 析 

Ethink 是 业界 唯一 的 端 到 端的 Hadoop、Spark 平台 上 的 大 数据 分 析 基 础 平台 , 它 集 成 
了 数据 集成 ,数据 清洗 数据 预 处 理 、 数 据 分 析 数据 挖掘 、 数 据 可 视 化 、 数 据 报告 等 众多 的 工 
具 。Ethink 是 一 个 集成 化 的 平台 ,能够 将 你 所 有 的 数据 加 载 到 Hadoop .Spark 平台 ,并 提供 
大 数据 的 商业 智能 开发 平台 。 

针对 大 数据 以 及 传统 数据 库 、 非 结构 化 数据 等 ,Ethink 提供 用 户 自助 的 分 析 平台 ,以 及 
业务 人 员 使 用 的 开发 平台 。 让 复杂 的 数据 能 够 快速 .简易 .可 视 地 变 为 决策 所 需要 的 智慧 信 
息 。 目 前 已 经 服务 于 金融 电信、 烟草、 财政 审计、 互联 网 等 行业 及 企业 客户 。 可 视 化 用 户 
的 数据 ,挖掘 用 户 数据 的 高 效 平台 。 


小 结 


本 章 主 要 对 大 数据 挖掘 相关 技术 进行 了 简 述 与 介绍 ,包括 大 数据 获取 技术 、 大 数据 存储 

和 处 理 技术 、 大 数据 查询 和 分 析 技 术 与 大 数据 可 视 化 技术 ,并 对 主流 的 大 数据 分 析 平 台 进行 
了 简介 。 大 数据 获取 技术 介绍 了 分 布 式 数据 采集 系统 Flume、 分 布 式 消息 队列 Kafka、 
Sqoop 数据 转移 工具 ,网络 爬 虫 技术 与 数据 预 处 理工 具 Kettle, 大 数据 存储 和 处 理 技术 包括 
Hadoop 分 布 式 存储 和 计算 平台 ` 流 式 数据 计算 引擎 Storm Spark 分 布 式 内 存 计算 引擎 ,大 
数据 查询 和 分 析 技术 包括 SQL-on-Hadoop 技术 、OLAP 分 析 引 擎 Kylin、 大 数据 分 析 技 术 
Mahout、 大 数据 分 析 技 术 Spark MLlib 等 。 本 章 进 行 了 常用 数据 分 析 工 具 的 比较 ,并 对 大 
数据 可 视 化 技术 ,大 数据 部 署 方案 与 大 数据 分 析 平台 进行 了 简介 。 
回 必 5 回 回 中 涪 






回 
Flume 十 Kafka 十 Sqoop 十 Kettle 十 Hadoop 十 Spark 十 SQL-on-Hadoop. mp4(30. 7MB) 
Strom. mp4(50. 8MB) 


习 题 


(1) 目前 流利 的 大 数据 获取 技术 都 有 哪些 ? 

(2) 什么 是 网 络 疏 虫 y 聚焦 疏 虫 主要 解决 什么 问题 ? 

(3) 简介 分 布 式 文件 系统 HDFS 的 工作 原理 及 特点 。 

(4) 网 页 的 抓 取 策略 分 为 几 种 ? 解释 并 比较 广度 优先 搜索 策略 与 最 佳 优先 搜索 策略 。 
(5) 说 明 Spark 的 特点 与 优势 。 

(6) 比较 R、Python、Weka 和 SAS 四 个 分 析 工 具 的 优 缺 点 。 

(7) 什么 是 数据 可 视 化 ? 数据 可 视 化 技术 的 发 展 方向 是 什么 ? 

(8) 简 述 大 数据 部 署 方案 。 


【内 容 摘 要 】 本 章 主要 讲解 数据 的 预 处 理 。 首 先 简 述 数据 类 型 数据 特征 与 数据 质量 ， 
然后 讲述 数据 采集 和 抽样 的 一 些 方法 ,最 后 主要 讲述 数据 预 处 理 的 过 程 , 该 过 程 主要 包括 数 
据 清 洗 、 数 据 集 成 .数据 变换 、 数 据 规约 和 Hadoop 中 的 数据 预 处 理应 用 。 

【学 习 目 标 】 通过 本 章 的 学 习 , 了 解数 据 的 类 型 特征 和 质量 的 概念 ; 掌握 常用 的 数据 
采集 和 抽样 的 方法 ; 熟练 掌握 应 用 数据 清洗 、 集 成 .变换 和 规约 对 采集 的 数据 进行 预 处 理 ， 
掌握 在 Hadoop 中 的 预 处 理应 用 。 


数据 预 处 理 是 实现 数据 挖掘 的 首要 环节 。 在 当今 大 数据 处 理 技术 中 ,通过 数据 预 处 理 
过 程 可 产生 高 质量 的 有 价值 的 格式 规范 的 易于 存储 和 传输 的 数据 ,为 进一步 进行 数据 管理 、 
数据 挖掘 和 分 析 以 及 可 视 化 展示 提供 合适 的 数据 源 。 


3.1 数据 类 型 、 数 据 特 征 与 数据 质量 


实现 数据 预 处 理 ,通常 需要 基于 不 同 的 数据 类 型 ,分析 数 据 特征 、 数 据 的 结构 特性 等 , 才 
能 选择 合适 的 处 理 方法 产生 有 用 的 数据 ,保障 数据 质量 。 


3.1.1 数据 类 型 


在 计算 机 中 ,按照 不 同 数据 所 需 内 存 大 小 来 划分 数据 类 型 。 数 据 类 型 是 指 程序 设计 语 
言 中 变量 所 能 表示 并 存储 的 数据 种 类 。 每 一 种 程序 语言 都 提供 标准 的 数据 类 型 ,如 字符 型 、 
整 型 \ 浮 点 型 等 ,同时 允许 用 户 自 定义 数据 类 型 ,如 结构 类 型 . 枚 举 型 .类 类 型 等 。 

另外 ,数据 类 型 所 占 内 存 的 大 小 也 与 计算 机 平台 的 处 理 字 长 相关 。 在 处 理 字 长 为 32 位 
的 应 用 程序 中 , 整 型 变量 所 占 内 存 的 大 小 是 4 字 节 ,而 在 处 理 字 长 为 64 位 的 应 用 程序 中 , 整 
型 变量 所 占 内 存 的 大 小 则 为 8 字 节 ,但 仍然 可 以 设置 4 字 节 内 存 长 度 的 短 整 型 变量 。 

在 统计 学 中 ,数据 类 型 取决 于 对 统计 数据 的 分 类 标准 或 分 类 方法 。 

(1) 按照 所 采用 的 计量 尺度 不 同 ,可 以 将 统计 数据 分 为 分 类 数据 、 顺 序数 据 和 数值 型 
数据 。 

分 类 数据 : 只 能 归于 某 一 类 别 的 非 数 字 型 数据 ,属于 定性 数据 或 品质 数据 。 分 类 数据 
是 对 事物 进行 分 类 的 结果 ,数据 表现 为 类 别 , 是 用 文字 来 表达 的 , 它 是 由 分 类 尺度 计量 形成 
的 。 例 如 ,人 口 按 性 别 分 为 男 、 女 。 

顺序 数据 : 只 能 归于 某 一 有 序 类 别 的 非 数 字 型 数据 ,属于 定性 数据 或 品质 数据 。 它 是 
由 顺序 尺度 计量 形成 的 ,例如 将 产品 分 成 不 同 的 等 级 。 





数值 型 数据 : 按 数字 尺度 测量 的 观测 值 ,属于 定量 数据 或 数量 数据 。 数 值 型 数据 是 使 
用 自然 或 度量 衡 单位 对 事物 进行 测量 的 结果 ,其 结果 为 具体 的 数值 。 

(2) 按照 统计 数据 的 收集 方法 ,可 以 将 统计 数据 分 为 观测 数据 和 实验 数据 。 

观测 数据 : 通过 调查 或 观测 收集 到 的 数据 ,是 在 没有 对 事物 人 为 控制 的 条 件 下 得 到 的 。 

实验 数据 : 在 实验 中 控制 实验 对 象 而 收集 到 的 数据 。 

(3) 按照 被 描述 的 对 象 与 时 间 的 关系 ,可 将 统计 数据 分 为 截面 数据 .时 间 序 列 数据 和 面 
板 数据 。 

截面 数据 : 在 相同 或 近似 相同 的 时 间 点 上 收集 的 数据 ,描述 的 是 事物 或 现象 在 某 一 时 
刻 的 变化 情况 。 

时 间 序 列 数据 : 在 不 同时 间 上 收集 到 的 数据 ,描述 的 是 事物 或 现象 随时 间 变 化 的 情况 。 

面板 数据 : 将 截面 数据 与 时 间 序 列 数据 综合 起 来 ,按照 时 间 序 列 和 截面 两 个 维度 将 数 
据 排 在 一 个 平面 上 形成 一 个 表格 , 称 为 面板 数据 (Panel Data) 。 

在 大 数据 技术 中 ,数据 按照 大 类 可 分 为 结构 化 数据 , 半 结 构 化 数据 和 非 结构 化 数据 。 

结构 化 数据 : 能 够 用 数据 或 统一 的 结构 加 以 表示 , 称 为 结构 化 数据 ,如 数字 、 符 号 ,又 如 
传统 的 关系 数据 模型 . 行 数据 等 ,存储 于 数据 库 , 可 用 二 维 表 结构 表示 。 

半 结 构 化 数据 : 所 谓 半 结 构 化 数据 ,就 是 介 于 完全 结构 化 数据 (如 关系 型 数据 库 、` 面 向 
对 象 数据 库 中 的 数据 ) 和 完全 无 结构 的 数据 (如 声音 、 图 像 文 件 等 ) 之 间 的 数据 。 如 XML、 
HTML 文档 就 属于 半 结 构 化 数据 , 它 一 般 是 自 描述 的 ,数据 的 结构 和 内 容 混在 一 起 ,没有 明 
显 的 区 分 。 

非 结构 化 数据 : 非 结构 化 数据 包括 所 有 格式 的 办 公文 档 文本、 图 片 XML、HTML、 各 
类 报表 、 图 像 和 音频 /视频 信息 等 ,可 通过 文件 系统 或 非 结构 化 数据 库 进行 存储 。 

非 结构 化 数据 库 是 指 其 字段 长 度 可 变 ,并 且 每 个 字段 的 记录 又 可 以 由 可 重复 或 不 可 重 
复 的 子 字段 构成 的 数据 库 。 用 它 不 仅 可 以 处 理 结构 化 数据 ,而 且 适 合 处 理 非 结 构 化 数据 。 


3.1.2 数据 集 与 数据 特征 


数据 集 (DataSet) 又 称 为 资料 集 、 数 据 集合 或 资料 集合 ,是 一 种 由 数据 所 组 成 的 集合 。 
规范 的 数据 集 是 数据 存储 和 管理 的 需求 。 针 对 结构 化 数据 和 非 结构 化 数据 ,数据 集 通 常 表 
现 为 数据 存储 使 用 的 表单 。 

结构 化 数据 集 通 常 以 二 维 表格 形式 出 现 。 每 一 列 代 表 一 个 特定 类 型 的 变量 ,每 一 行 则 
对 应 于 某 一 成 员 的 数据 集 ,代表 一 笔 元 素 。 数 据 集 以 数据 库 表 单 形式 存放 时 ,每 一 列 称 为 一 
个 字段 或 属性 ,每 一 行 称 为 一 笔记 录 或 一 个 元 组 。 最 小 的 数据 单位 则 是 元 素 中 的 数据 项 。 
而 对 于 非 结构 化 数据 ,按照 非 关系 型 数据 库 如 HBase 的 存储 方式 ,数据 表 的 每 一 行 由 行 键 
(Row Key) 和 任意 多 的 列 (Column) 组 成 ,其 中 多 个 列 可 以 组 成 列 簇 (Column Family)。 每 
个 数据 单元 (Cell) 可 以 拥有 数据 的 多 个 版 本 (Version) ,这 是 使 用 时 间 惟 来 区 分 的 。 数 据 表 
在 行 方向 上 还 可 划分 为 多 个 Region ,Region 是 分 布 式 存储 的 最 小 单元 。 在 这 种 非 结 构 化 数 
据 存储 方式 中 ,数据 表示 为 建 / 值 对 (Key/Value) ,其 中 , 键 由 行 关键 字 、 列 关键 字 和 时 间 戳 
构成 。 

维度 、 稀 朴 性 和 分 辩 率 是 大 部 分 数据 集 所 具有 的 三 个 基本 特性 ,它们 对 于 数据 挖掘 技术 
有 不 可 估量 的 影响 。 











维度 (Dimensionality) : 维度 又 称 维 数 , 是 数学 中 独立 参数 的 数目 。 在 物理 学 和 哲学 领 
域 , 指 独立 的 时 空 坐标 的 数目 。 数 据 集 的 维度 是 数据 集中 的 对 象 具有 的 属性 数目 。 

稀 朴 性 (Sparsity) : 稀 朴 性 通常 是 指 在 非 对 称 的 数据 集中 ,一 个 对 象 的 大 部 分 属性 上 的 
值 都 为 0。 在 许多 情况 下 , 非 零 项 还 不 到 1%。 数 据 的 稀 朴 性 不 能 单一 地 定义 为 是 一 个 优点 
或 一 个 缺点 ,有 时 候 会 节省 大 量 的 时 间 和 存储 空间 ,但 是 会 丢失 很 多 数据 信息 。 此 外 ,有 些 
数据 挖掘 算法 仅 适 合 处 理 稀 玻 数据 。 

分 辩 率 (Resolution) : 计算 机 的 分 辩 率 可 以 从 显示 分 辩 率 与 图 像 分 辩 率 两 个 方向 来 分 
类 。 描 述 分 辩 率 的 单位 有 DPI( 点 每 英寸 ) .PPI( 像 素 每 英寸 ) 和 LPI( 线 每 英寸 )。LPI 用 于 
描述 光学 分 辨 率 。 在 数据 采集 过 程 中 ,常常 可 以 在 不 同 的 分 辩 率 下 得 到 数据 ,并 且 在 不 同 的 
分 辩 率 下 数据 的 性 质 也 不 同 。 多 媒体 数据 或 数据 模式 均 依 赖 于 分 辩 率 。 


3.1.3 探索 数据 结构 


数据 结构 是 数据 实体 中 元 素 之 间 的 关系 ,也 就 是 相互 之 间 存 在 一 种 或 多 种 特定 关系 的 
数据 元 素 的 集合 。 在 计算 机 中 ,数据 结构 还 包括 数据 的 表示 方法 和 运算 ,是 计算 机 存储 、 组 
织 数据 的 方式 。 

探索 数据 结构 主要 是 指 探索 数据 的 特征 和 案例 ,从 而 找到 数据 的 独特 之 处 。 如 样本 数 
据 集 的 数量 和 质量 是 否 满足 模型 构建 的 要 求 ? 有 没有 出 现 从 未 设想 过 的 数据 状态 ? 各 因素 
之 间 的 关系 是 什么 ? 等 等 ,都 是 探索 数据 结构 需要 考虑 的 问题 。 

在 机 器 学 习 中 ,收集 数据 并 且 把 它们 加 载 到 R 数据 结构 以 后 ,下 一 个 步骤 就 是 探索 数 
据 。 对 数据 理解 得 深刻 ,之 后 的 机 器 学 习 就 可 以 更 加 高 效 。 

理解 和 探索 数据 的 最 好 方法 就 是 通过 实例 。 例 3-1 通过 R 语言 针对 一 些小 数据 集 进 行 

【 例 3-1】 对 某 地 区 15 天 的 中 午 空气 污染 数据 进行 简单 的 数据 结构 的 探索 。 数 据 的 第 
一 行 是 空气 中 相关 指标 的 名 称 , 本 例 主 要 探索 数据 的 维度 和 数据 中 每 个 指标 的 数据 类 型 。 


> kongqi < -read.csv("F:\kongqi.csv") 


> kongqi 
风速 ”太阳 辐射 co NO No2 03 HC 
8 98 7 2 12 8 2 
7 0 
7 103 4 3 5 6 3 
10 88 5 2 815 4 
6 六 
8 9 5 2 了 2 了 2 4 
9 84 7 4 10 15 5 
6 本 -而 
7 了 下 天 入 3 
10 Le 
10 和 五 
学 光 和 53 
7 入 六 倒数， 活 沟 
6 6 6 2 11 14 3 
8 0 4 3 6 5 2 


> head (kongqi) 


风速 ”太阳 辐射 co NO No2 03 Hc 
8 0 汪 这 

7 107 4 3 953 

7 103 4 3 5 6 3 

10 88 5 2 坟 5 4 

6 二 沪 和 - 芭 瑟 

8 站 退 


> str (kongqi) 
"data.frame': 15 cbs. of 7variables: 


$ 风速 :int 8 7 7 10 6 8 9 6 7 10... 
$ 太阳 辐射 : int 98107 103 88 91 90 84 91 72 70... 
$ co :int 7 4 和 而 汪 
$ NO int 2 3 二 
$ NO2 :int 12 9 5 8 2 起 过 吉 
$ 03 :int 8 5 6 -和 二 巡 哮 了 各 
$ HC :int 2 3 9 


上 面 两 个 运行 结果 显示 ,简单 的 三 行 代码 就 显示 出 导入 的 数据 集 的 一 个 结构 。head() 
函数 展示 出 此 数据 集 的 前 六 行 ,str() 函数 提 供 了 一 个 显示 数据 框 结 构 的 方法 ,或 者 说 它 提 
供 了 显示 所 有 同时 包含 向 量 和 列表 的 数据 结构 的 方法 。 语句 15 obs 表示 数据 一 共 包 含 
15 个 观测 值 或 者 案例 。 语 句 7 variables 表示 数据 记录 了 7 个 特征 。 结 合 head() 函 数 展示 
出 来 的 结果 ,不 难 发 现 ,数据 一 共 是 15 个 案例 和 7 个 属性 变量 。 

在 变量 名 后 面 ,int 指出 这 个 属性 变量 是 整 型 。 在 这 个 数据 集中 ,所 有 的 属性 变量 都 是 
整 型 的 。 当 然 其 他 的 数据 还 可 能 出 现 chr、num、Factor 等 多 种 数据 类 型 。 同 时 语句 data. 
frame 说 明 这 个 数据 是 数据 框 型 的 。 


3.1.4 数据 质量 相关 概念 与 数据 质量 分 析 


数据 质量 (Data Quality) 是 保证 数据 应 用 的 基础 ,包括 对 数据 的 完整 性 一 致 性 ,准确 性 
和 及 时 性 4 个 方面 的 要 求 。 

在 数据 分 析 和 数据 仓库 方面 ,数据 质量 由 数据 质量 元 素来 描述 。 数 据 质 量 元 素 (Data 
Quality Element) 是 描述 数据 质量 的 信息 项 ,包括 位 置 精度 .属性 精度 、 逮 辑 一 致 性 、 完 整 
性 、 现 势 性 和 数据 说 明 。 数 据 质 量 元 素 分 为 两 类 : 数据 质量 的 定量 元 素 和 数据 质量 的 非 定 
量 元 素 。 数 据 质 量 定 量 元 素 用 于 描述 数据 集 满足 预先 设 定 的 质量 标准 及 指标 的 程度 ,并 提 
供 定量 的 质量 信息 。 数 据 质量 非 定量 元 素 提供 综述 性 的 非 定量 的 质量 信息 。 

与 数据 质量 相关 的 工作 包括 数据 质量 管理 .控制 .评价 和 审核 。 这 些 工 作 的 前 提 通 常 需 
要 建立 数据 质量 模型 。 数 据 质量 模型 是 用 于 标识 和 评定 质量 信息 的 形式 结构 。 

数据 质量 管理 (Data Quality Management) 是 指 对 数据 从 计划 、 获 取 、 存 储 、 共 享 、 维 护 、 
应 用 、 消 亡 生 命 周期 的 每 个 阶段 里 可 能 引发 的 各 类 数据 质量 问题 进行 识别 .度量 ,监控 、 预 警 
等 一 系列 管理 活动 ,并 通过 改善 和 提高 组 织 的 管理 水 平 ,使 数据 质量 获得 进一步 提高 。 

数据 质量 评价 (Data Quality Evaluation) 是 指 对 数据 质量 进行 评估 的 方法 和 过 程 。 常 
用 的 评价 方法 有 演绎 推算 、 内 部 验证 ,与 原始 资料 (或 更 高 精度 的 独立 原始 资料 ) 对 比 、 独 立 
抽样 检查 ,多边形 又 加 检查 有 效 值 检查 等 。 在 评价 过 程 中 , 需 对 每 个 质量 元 素 进行 检查 说 


明 ,并 给 出 总 的 评价 ,最 后 形成 数据 质量 评价 报告 。 

数据 质量 审核 (Data Quality Audit) 是 指 对 数据 质量 进行 审核 分 析 。 在 使 用 新 的 数据 
库 之 前 ,企业 要 确认 、 更 正 错误 数据 ,并 在 数据 库 启用 后 提供 编辑 数据 的 程序 。 数 据 质 量 分 
析 首 先进 行 数据 质量 审核 , 即 在 信息 系统 中 进行 数据 准确 性 和 完整 性 方面 的 结构 化 调查 , 它 
可 以 在 整个 数据 文件 范围 内 或 数据 文件 范本 内 调查 ,也 可 以 调查 终端 用 户 对 数据 质量 的 
看 法 。 

数据 质量 分 析 (Data Quality Analysis) 是 数据 挖掘 中 数据 准备 过 程 的 重要 步骤 ,是 预 处 
理 的 前 提 , 也 是 数据 挖掘 分 析 结论 有 效 性 和 准确 性 的 基础 。 没 有 可 信 的 数据 ,数据 挖掘 构建 
的 模型 就 是 不 可 靠 甚至 毫 无 意义 的 。 


3.2 数据 采集 与 抽样 


数据 采集 是 实现 数据 管理 和 挖掘 的 先期 工作 。 数 据 抽样 是 针对 大 数据 集 进行 数据 分 
析 的 必要 手段 。 为 了 更 好 地 实现 数据 处 理 过 程 ,数据 的 采集 和 抽样 要 使 用 专门 的 技术 
手段 。 


3.2.1 数据 采集 概述 


传统 的 数据 采集 是 指 从 传感器 和 其 他 监测 设备 等 模拟 和 数字 被 测 单元 中 自动 采集 非 电 
量 或 者 电量 信号 , 送 到 上 位 机 中 进行 分 析 处 理 。 

在 计算 机 广泛 应 用 的 今天 ,互联 网 每 天 产生 海量 的 数据 ,这 些 数 据 中 潜在 相当 大 的 应 用 
价值 ,数据 采集 就 成 了 重要 的 环节 。 获 取 互 联网 中 的 数据 依靠 人 工 采 集 是 不 现实 的 ,相对 高 
效 的 方法 是 应 用 专门 的 采集 工具 ,如 网 络 爬 虫 等 来 收集 有 关 信 息 , 再 经 过 数据 存储 、 数 据 预 
处 理 、 数 据 挖掘 与 数据 分 析 , 得 到 有 价值 的 信息 。 


3.2.2 数据 采集 方法 与 应 用 特性 


数据 采集 方法 一 般 包 括 网 上 直 报 、 离 线 填报 .Excel 导入 、 外 部 数据 文件 导入 、 异 构 数 据 
库 导入 主动 数据 抽取 等 多 种 数据 采集 方式 。 

网 上 直 报 是 指 用 户 通过 互联 网 .填报 信息 ,提交 到 数据 库 。 

离线 填报 是 指 将 数据 通过 离线 软件 采集 到 计算 机 中 。 

Excel 导入 是 指 通过 Excel 表格 将 数据 提交 到 数据 库 。 

外 部 数据 文件 导入 是 指 将 计算 机 中 的 文件 通过 特定 方法 导入 数据 库 ,进行 有 效 管 理 。 

异 构 数据 库 导 入 是 指 通 过 各 种 工具 将 数据 在 不 同 数 据 库 类 型 不同 数据 库 结 构 的 异 构 
数据 库 之 间 进 行 数据 同步 。 

网 络 数 据 采 集 的 主流 应 用 是 在 网 络 仆 虫 。 网 络 候 虫 又 被 称 为 网 页 蜂 蛛 、 网 络 机 器 人 (在 
FOAF 社区 ,经 常 称 为 网 页 追逐 者 ) ,是 一 种 按照 一 定 的 规则 ,自动 地 抓 取 万 维 网 信息 的 程序 
或 者 脚本 。 

网 络 爬 虫 按 照 系 统 结构 和 实现 技术 ,大 致 可 以 分 为 四 种 类 型 : 通用 网 络 怜 虫 (General 
Purpose Web Crawler)、 聚 焦 网 络 爬 虫 (Focused Web Crawler)、 增 量 式 网 络 疏 虫 
(Incremental Web Crawler) 和 深层 网 络 息 虫 (Deep Web Crawler) 。 实 际 的 网 络 疏 虫 系统 通 


常 是 几 种 怜 虫 技术 相 结合 实现 的 。 

传统 朴 虫 从 一 个 或 若干 初始 网 页 的 URL 开始 ,获得 初始 网 页 上 的 URL, 在 抓 取 网 页 的 
过 程 中 ,不 断 从 当前 页 面 上 抽取 新 的 URL 放 入 队列 ,直到 满足 系统 的 一 定 停止 条 件 。 聚 焦 
疏 虫 的 工作 流程 较为 复杂 ,需要 根据 一 定 的 网 页 分 析 算 法 过 滤 与 主题 无 关 的 链接 ,保留 有 用 
的 链接 并 将 其 放 入 等 待 抓 取 的 URL 队列 。 接 着 , 它 将 根据 一 定 的 搜索 策略 从 队列 中 选择 
下 一 步 要 抓 取 的 网 页 URL, 重 复 上 述 过 程 , 直 到 达到 系统 的 某 一 条 件 时 停止 。 另 外 ,所 有 被 
和 仆 虫 抓 取 的 网 页 将 会 被 系统 存储 ,进行 一 定 的 分 析 、 过 滤 , 并 建立 索引 ,以 使 之 后 的 查询 和 检 
索 。 对 聚焦 怜 虫 来 说 ,这 一 过 程 所 得 到 的 分 析 结 果 还 可 能 对 以 后 的 抓 取 过 程 给 出 反馈 和 

网 络 息 虫 可 以 用 Python Java、R 等 各 种 语言 实现 。 现 今 大 多 数 的 网 络 怜 虫 都 用 
Python 语言 来 写 。Python 是 一 门 轻 量 级 的 面向 对 象 的 解释 型 计算 机 程序 设计 语言 , 它 拥 
有 强大 的 库 可 以 解决 各 种 爬虫 问题 。 

【 例 3-2】 假 取 百度 贴吧 帖子 实例 ,目的 是 快速 获取 百度 贴吧 帖子 的 标题 ,楼主 和 每 个 
楼 层 的 回复 信息 。 


##-* 一 coding:utf- 8 一 * 一 
import urllib 

import urllib2 

import re 


class Tool: 

removeImg = re.compile('<img.*?>| {7}|') 
removeAddr = re.compile('<a.*?>|</a>') 
replaceLine = re.compile('<tr>|<div> |</div> |</p> ') 
replaceTD= re.compile('<td>') 
replacePara = re.compile('<p.*?>') 
replaceBR= re.compile('<br><br> |<br>') 
removeExtraTag = re.compile('<.*?>') 
def replace (self,x): 

x= re.sub(self.removeImg,"",x) 

X= re.subl(self.removeAddr,"",x) 

x= re.sub(self.replaceLine,"\n",x) 

x= re.sub(self.replaceTD,"\t",x) 

x= re.sub(self.replacePara mn 号 

x= re.sub(self.replaceBR,"\n",x) 

X= re.subl(self.removeExtraTag,"",x) 

# strip () 将 前 后 多 余 内 容 删 除 


return x.strip () 
class BDTB: 


# 初 始 化 ,传人 基地 址 ,是 否 只 看 楼 主 的 参数 
def init (self,baseUrl,seeLZ,floorTag): 
self.baseURL = baseUrl 
self.seeLZ = '? see 1z= '+str(seeLZ) 
self.tool = Tool() 
self.file = None 





self.floor= 1 
self.defaultTitle = u" 百 度 贴吧 " 
self.floorTag = floorTag 


def getPage (self,pageNum) : 
try: 
url= self.baseURL+ self.seeLZ + 'gpn=" +str (pageNum) 
request = urllib2.Request (url) 
response = urllib2.urlopen (request) 
return response.read () .decode ('utf- 8') 
except urllib2.URLError, e: 
if hasattr (e, "reason") : 
print u" 连 接 百 度 贴 吧 失 败 , 错 误 原因 ",e.reason 
return None 


def getTitle (self,page): 
pattern= re.copile('<h3 class="core title txt.*?>(.*?)</h3>',re.S) 
result = re.search (pattern,page) 
Print result.group (1) 
return result.group (1) .strip () 
else: 
return None 


def getPageNum(self,page): 
pattern= re.compile('<]1i class="] reply num.*? </span> .* ? <span.*?> 
(.* ?3)</span> ',re.s) 
result = re.search (pattern,page) 
if result: 
return result .group (1) .strip() 
else: 
return None 


def getContent (self,page): 
pattern = re.compile('<div id= "post content .*?>(.*?)</div>',re.Ss) 
items = re.findall (pattern,page) 
contents= [] 
for item in items: 
content = "\n"+self.tool.replace(item)+"\n" 
contents .append (content .encode ('utf- 8°')) 
return contents 


def setFileTitle (self,title): 
if title is not None: 
self.file= open (title +".txt","wt+") 
else: 
self.file = open(self.defaultTitle +".txt", "w+ ") 


def writeData (self, contents): 
for item in contents: 
if self.floorTag == "1': 
floorLine = "\n"+str(self.floor) + 





self.file.write (floorLine) 
self.file.write (item) 
self.floor += 1 


def start (self): 
indexPage = self.getPage (1) 
pageNum = self.getPageNum (indexPage) 
title = self.getTitle (indexPage) 
Self.setFileTitle (title) 
if pageNum == None: 
print "URL 已 失效 ,请 重 试 " 
return 
try: 
print "该 帖子 共有 " +str (pageNum) +" 页 " 
for i in range (l,int (pageNum)+1): 
print "正在 写 人 第 " +str(i) +" 页 数据 " 
Page = self.getPage(i) 
contents = self.getContent (page) 
self.writeData (contents) 
except IOError,e: 
print " 写 人 异常 ,原因 " +e.message 
finally: 
print " 写 人 任务 完成 " 
Print u" 请 输入 帖子 代号 " 
baseURL = "http://tieba.baidu.com/p/' + str (raw_input (u'http://tieba.baidu.com/p/')) 
seeL2 = raw_input ("是 否 只 获取 楼 主 发 言 ,是 输入 1, 否 输入 0\n") 
floorTag = raw input ("是 否 写 人 楼 层 信息 ,是 输入 1, 否 输入 0\n") 
bdtb = BDTB (baseURL, seeLZ, floorTag) 
bdtb.start () 


程序 结果 如 下 所 示 。 


请 输入 帖子 代号 
tttp://tieba.baidu.com/p/: 
是 否 值 获取 楼 主 发 言 ,是 输入 1, 否 输入 0 
1 

是 否 写 人 楼 层 信息 ,是 输入 1, 否 输入 0 

时 

该 帖子 共有 2 页 

正在 写 人 第 1 页 数据 

正在 写 人 第 2 页 数据 

写 人 任务 完成 

Process finished with exit code 0 





3.2.3 数据 抽样 概述 


抽样 是 一 种 选择 数据 对 象 子 集 进行 分 析 的 常用 方法 。 在 统计 建 模 过程 中 经 常会 用 到 抽 


样 技术 ,通过 样本 来 反映 总 体 的 特征 。 对 数据 抽样 的 基本 要 求 是 抽取 样 集 的 有 效 性 ,因此 有 
效 抽样 的 主要 原理 就 是 抽取 的 样本 要 与 整个 数据 的 效果 几乎 相同 。 目 前 主要 有 两 大 类 数据 


抽样 技术 , 即 等 概率 抽样 和 非 等 概率 抽样 。 在 实际 应 用 中 ,等 概率 抽样 是 常见 的 。 
3.2.4 数据 抽样 方法 与 应 用 特性 


1. 简单 随机 抽样 

简单 随机 抽样 是 现实 生活 中 经 常 接触 到 的 抽样 方法 ,比如 摸 彩 .抽奖 或 者 抽签 决定 某 个 
人 去 做 一 件 事 等 。 简 单 随机 抽样 的 主要 特点 就 是 母 群体 中 的 每 一 个 个 体 都 有 相同 的 概率 被 
选 人 样本 。 这 是 一 种 最 公平 并 且 概 念 上 最 简单 的 抽样 方法 ,可 以 直接 用 统计 学 原理 去 进行 
估算 和 推论 。 

简单 随机 抽样 包括 有 放 回 和 无 放 回 的 抽样 ,在 R 中 使 用 自 带 的 sample() 函数 就 可 以 实 
现 。sample() 函 数 的 语法 为 sample(x,， size, replace 二 FALSE, prob 二 NULL)。x 表示 
抽样 对 象 ,可 以 是 数值 .字符 或 逻辑 向 量 ; size 表示 抽样 规模 , 即 需 要 从 总 体 x 中 抽取 多 少 
样本 ; replace 指定 是 否 进行 有 放 回 抽样 ,默认 的 是 无 放 回 抽样 , 当 设置 为 TRUE 时 , 则 是 有 
放 回 抽样 ; prob 可 以 指定 抽样 元 素 的 概率 ,默认 每 个 个 体 被 等 概率 抽 中 。 

【 例 3-3】 sample() 函 数 的 简单 运用 。 


# 先 从 10~100 产生 100 个 随机 数 
>xl1 <-runif(100, min = 10, max = 100) 
# 接 着 从 上 一 步 中 无 放 回 地 随机 抽取 10 个 随机 数 并 输出 结果 
>samplel <- sample(x = xl, size= 10, replace = FALSE);samplel 

[1] 13.96304 12.26734 69.96037 97.50348 27.99869 54.23512 10.28627 27.14339 

[9] 65.59698 35.38356 
>x2 <- sample(c('A','B','C','D'), 100, replace = TRUE, 

prob= c(0.4,0.3,0.2,0.1)) 
# 也 可 以 从 A、B、C、D 中 随机 有 放 回 的 抽取 100 个 ,并 且 给 出 每 个 字母 被 抽 中 的 概率 ,然后 查看 抽 到 
# 的 每 个 字母 的 个 数 
>table (x2) ;prop.table (table (x2)) 
x2 
&RA B C D 
293627 8 
x2 
A B c D 

0.29 0.36 0.27 0.08 


2. 系统 抽样 

系统 抽样 方法 是 一 种 简化 的 随机 抽样 法 ,又 叫 作 等 距 抽样 法 。 最 普遍 的 做 法 就 是 从 母 
群体 的 数据 中 ,按照 一 定 的 间隔 抽取 足够 的 个 体 组 成 样本 。 比 如 一 个 有 500 个 学 生 的 年 级 ， 
给 每 个 学 生 编号 (1,2,3,4,5,6,7,8.9,10,11,12,…) ,抽取 尾 号 为 “3” 的 所 有 同学 个 体 组 成 
样本 。 

关于 系统 抽样 方法 ,可 以 在 R 中 使 用 sampling 程序 包 中 自 带 的 UPsystematic() 图 数 来 
实现 : UPsystematic(pik, eps 二 le 一 6)。 其 中 ,Pik 是 一 个 向 量 , 存 放 抽样 的 包含 概率 ; 
eps 是 一 个 控制 值 ,默认 为 le 一 6。 

【 例 3-4】 UPsystematic() 函数 的 运用 。 

# 从 1~100 生 成 500 个 随机 数 ,并 保留 整数 


>x <-round(runif(500, min = 1, max= 100)) 





>pik <-inclusionprobabilities (x,100) 
>s <-UPsystematic (pik) # 返 回 0-1 值 表示 是 否 被 抽样 


>head (getdata (x, s) ,10) 
运行 结果 如 下 ， 
ID unit data 
3 74 

Ei 开 

15 44 

20 88 

25 75 

EE 

35 96 

40 45 

45 74 

50 99 


从 运行 结果 中 的 ID_unit 看 ,并 不 满足 系统 抽样 的 定义 , 即 等 间隔 地 抽取 个 体 组 成 样 
为 了 保证 与 定义 的 一 致 性 ,下 面 自 定义 系统 抽样 的 函数 。 


Sys_sampling <- function(x, gap = 10, seed= 1234){ 
set.seed (seed) 
i <-round(runif(l, min= 1, max= 10)) 
ID <- numeric () 
Sampling < 一 numeric () 
while (i<=1length (x)) { 
IDLceiling(i/gap)] <-i 
sampling[ ceiling (i/gap)] <-2[i] 
i<-i+tgap 
i 
return(data.frame (ID = ID, data= sampling)) 
} 


上 面 自 定义 函数 中 ,x 为 待 抽 样 的 总 体 ; gap 为 抽样 间隔 ,默认 为 10; seed 为 种 子 数 ,用 


于 从 [1,10] 之 间 随 机 挑选 一 个 起 始 号 设 定 随机 种 子 , 默 认为 123。 下 面 举例 验证 自 定义 的 
函数 。 


>head (sys sampling(x = x, gap = 7, seed = 3),10) 
运行 结果 如 下 : 


ID data 


号 
只 8 8 


四 Demoumwn 
名 
要 


10 66 94 


不 难看 出 ,有 时 R 中 的 系统 抽样 函数 并 不 适用 用 户 的 数据 ,这 时 可 以 进行 数据 变换 或 
者 在 有 条 件 的 情况 下 自己 重新 编写 一 个 适合 自己 数据 集 的 系统 抽样 函数 。 

3. 分 层 抽样 

当 总 体 由 不 同类 型 的 对 象 组 成 ,每 种 类 型 的 对 象 数量 差别 很 大 时 ,简单 随机 抽样 和 系统 
抽样 不 能 充分 地 代表 不 太 频繁 出 现 的 对 象 类 型 。 当 分 析 需 要 所 有 类 型 的 代表 时 ,这 样 就 会 
出 现 问题 。 在 数据 分 析 建 模 的 时 候 会 经 常用 到 分 层 抽样 ,这样 就 可 以 满足 目标 变量 都 会 被 
选中 ,这 样 建立 的 模型 才 有 更 高 的 准确 率 。 分 层 抽 样 是 一 种 比 随机 抽样 方法 更 精准 的 随机 
抽样 方法 ,所 用 的 方法 根据 研究 性 质 , 依 照相 关 的 条 件 把 母 群体 中 的 个 体 分 成 不 同 的 层 别 或 
组 别 (strata) ,再 分 别 从 每 一 层 别 或 组 别 中 的 个 体 随机 抽出 一 定 的 个 体 来 组 成 样本 。 

关于 分 层 抽 样 方法 ,在 R 中 可 以 使 用 sampling 包 中 的 strata() 函 数 实 现 。 

strata (data, stratanames=NULL, size, method = cl("srswor","srswr","poisson", 

"systematic"), pik,description= FALSE) 

其 中 ,data 是 待 抽样 的 数据 框 ; stratanames 是 指定 数据 框 中 的 分 层 变 量 ; size 指定 每 
个 层 中 的 抽样 数量 ,默认 按 原 数 据 中 分 层 变 量 水 平 的 顺序 指定 抽样 数量 ; method 指定 抽取 
各 层 数 据 的 方法 ,默认 为 无 放 回 的 简单 随机 抽样 ,还 可 以 是 有 放 回 的 简单 随机 抽样 、 泊 松 抽 
样 和 系统 抽样 ; pik 表示 如 果 选 择 系统 抽样 ,需要 指定 系统 抽样 的 包含 概率 pik 向 量 。 

【 例 3-5】 strata( ) 函数 的 运用 。 

# 首 先 产生 Al100 个 、.B200 个 、.c300 个 .D400 个 

>Stratified <- rep(c('A','B','C','D'), c(100,200,300,400)) 

# 从 1~ 1000 产生 1000 个 随机 数 并 保留 整数 

>Values <- round(runif(1000, min = 1, max = 1000)) 


# 建 立 一 个 数据 框 , 放 入 刚刚 生成 的 两 列 数 


>df <-data.frame (Stratified= Stratified, Values = Values) 


>n<-400 
# 计 算 分 层 抽样 中 每 层 的 样本 数 
>size <- round(400* table(df$ Stratified)/length(df$ Stratified)) 
# 分 层 抽样 
>s<-strata(data = df, stratanames = 'Stratified', size= size, method = 'srswor') 
>head (getdata (data = df, m= 3)) 
运行 结果 如 下 : 
Values Stratified ID unit Prob Stratum 
2 386 A 2 0.4 : 
入 328 A 3 0.4 入 
7 295 A 7 0.4 鱼 
10 513 A 10 0.4 各 
11 506 A uu 0.4 1 
12 535 A 12 0.4 1 
# 自 定义 每 层 抽 样 数量 的 分 层 抽 样 


>sl <- strata (data = df, stratanames = 'Stratified', size= c(50, 100, 50, 200), method= ， 


srswor') 


>head (getdata (data = df, m= sl1)) 


运行 结果 如 下 : 
Values Stratified ID unit Prob Stratum 

2 386 A 2 :5 % 
3 328 A 3 0.5 » 
4 602 A 4 05 1 
6 126 A 6 0.5 和 
瘟 295 A 7 0.5 中 
Ey 631 A 9 0.5 1 


分 层 抽样 相对 于 简单 的 随机 抽样 来 说 参数 更 多 ,所 以 在 真正 分 层 抽样 的 时 候 要 分 清楚 
每 个 参数 的 作用 。 另 外 ,分 层 抽样 有 四 种 方法 ,具体 选择 哪 种 根据 实际 情况 来 决定 。 

可 以 使 用 R、SPSS、SAS 和 Excel 等 各 种 统计 学 软件 通过 编程 和 界面 化 操作 来 实现 数 
据 抽样 ,也 可 以 用 Java、C、Open C、Python 等 各 种 计算 机 编程 语言 通过 编写 程序 进行 
抽样 。 


3.3 数据 预 处 理 过 程 


在 大 数据 技术 中 ,数据 预 处 理 (Data Preprocessing) 是 从 海量 数据 中 发 掘 出 有 价值 信息 
的 数据 处 理 过 程 ,也 是 数据 挖掘 的 第 一 阶段 。 数 据 预 处 理 是 一 个 综合 的 过 程 , 涉 及 很 多 环节 
和 相应 的 技术 手段 。 


3.3.1 数据 预 处 理 的 作用 与 任务 


在 商务 与 日 常 实践 中 ,需要 使 用 数据 挖掘 技术 分 析 的 数据 通常 不 完整 (有 缺失 值 )、 不 一 
臻 有 噪声 (存在 错误 或 者 异常 值 ) 的 ,严重 影响 数据 挖掘 建 模 的 执行 效率 ,甚至 导致 挖掘 结 
果 的 偏差 ,所 以 进行 数据 预 处 理 尤为 重要 。 依 照 设 定 方案 对 数据 进行 预 处 理 , 来 获取 有 效 、 
准确 和 可 信 的 数据 ,才能 进一步 展开 挖掘 探究 等 数据 处 理 和 分 析 工 作 。 相 对 于 后 期 的 分 析 
过 程 , 数 据 预 处 理 通常 更 是 一 项 需要 耐心 和 技巧 的 工作 。 

数据 预 处 理 的 主要 内 容 包括 数据 清洗 数据 集成 数据 变换 和 数据 规约 。 


3.3.2 数据 清洗 


一 份 干净 而 整洁 的 数据 至 少 包括 以 下 几 个 要 素 。 

。 每 个 观测 变量 构成 一 列 。 

。 每 个 观测 对 象 构成 一 行 。 

。 每 个 类 型 的 观测 单元 构成 一 个 表 。 

下 面 讲 一 下 数据 清洗 经 常用 到 的 步骤 : 剔除 原始 数据 集中 无 关 的 数据 ` 完 余 属性 ,缺失 
值 处 理 ,异常 值 处 理 。 

无 关 数 据 : 在 原始 数据 集中 ,通常 会 存在 与 本 次 数据 挖掘 研究 没有 影响 或 者 几乎 没有 
影响 的 数据 。 剔 除 这 类 数据 对 挖掘 的 效率 有 一 定 的 积极 意义 。 

元 余 属性 ; 同一 属性 重复 出 现 , 同 一 属性 命名 不 同 , 其 他 属性 中 包含 另 一 属性 或 者 很 大 


程度 上 可 以 代表 该 属性 。 

缺失 值 : 顾名思义 ,就 是 一 个 数据 集中 缺少 的 数据 。 

异常 值 : 常见 的 就 是 人 为 输入 错误 ,如 小 数 点 输入 错误 , 误 把 100. 00 输入 为 1000. 0。 

上 面 所 提 到 的 无 关 数 据 、 宛 余数 据 、 缺 失 值 和 异常 数据 都 是 根据 具体 的 数据 分 析 要 求 所 
定义 的 , 即 根据 不 同 的 数据 挖掘 要 求人 为 地 决定 其 中 的 某 些 数据 是 否 属于 以 上 内 容 。 

缺失 值 的 处 理 常 用 删除 法 或 插 补 法 。 

(1) 删除 法 包括 行 删除 和 列 删除 。 在 R 中 用 na. omit( ) 函数 剔除 所 有 含有 缺失 值 的 
行 ,用 Data[ ,一 Lj 来 实现 删除 含有 缺失 值 的 列 , Data 表示 数据 集 ,L 表示 缺失 值 所 在 
的 列 。 

(2) 插 补 法 。 删 除法 虽然 简单 易 行 ,但 是 会 带 来 信息 的 浪费 ,导致 分 析 结果 产生 一 定 的 
偏差 。 插 补 法 相对 来 说 比较 好 ,常用 的 插 补 法 有 热 平 台 、 冷 平台 、 回 归 插 补 、 多 重 择 补 等 。 针 
对 不 同 的 数据 分 析 应 采用 不 同 的 缺失 值 处 理 方法 。 

在 处 理 之 前 需要 对 异常 值 进行 识别 ,一 般 采 用 单 变量 散 点 图 或 箱 形 图 可 以 达到 目的 。 

















常用 的 处 理 方法 如 表 3-1 所 示 。 
表 3-1 异常 值 常见 处 理 方法 
处 理 方法 方法 描述 
删除 含有 异常 值 的 记录 直接 将 含有 异常 值 的 记录 删除 
视 为 缺失 值 将 异常 值 视 为 缺失 值 ,利用 缺失 值 的 处 理 方法 进行 处 理 
平均 值 修 正 可 用 前 后 两 个 观测 值 的 平均 值 修正 异常 值 
不 做 处 理 直接 在 含有 异常 值 的 数据 集 上 进行 挖 气 建 模 


很 多 情况 下 ,要 分 析 异 常 值 出 现 的 原因 ,再 判断 处 理 方法 。 
【 例 3-6】 举例 形象 化 说 明 异 常 值 的 处 理 方法 。 


>DATA <- read.csv ("F:\ chengjidan.csv") ;DATA 


姓名 性 别 语文 数学 英语 历史 地 理 生物 副科 总 分 


汉 楠 ” 女 89 90.0 84 83 82 82 247 
姜 华 男 90 64.0 82 76 80 78 234 
李 平 女 86 69.0 82 72 80 74 226 
郑 右 男 89 9.1 83 69 84 81 234 
陈 正 真 男 87 87.0 82 80 84 84 248 
王 盼 盼 女 89 69.0 84 71 80 62 213 
郑 娜 女 94 96.0 85 90 90 85 265 
范 彬 彬 ” 男 NA 91.0 83 81 88 80 249 
杨 娟 女 87 96.0 82 81 92 86 259 
杨 砍 女 88 87.0 82 71 88 72 231 
朱 清 男 91 60.0 80 60 84 75 219 
董 思 思 女 NA 75.0 80 70 84 71 225 
叶 文 强 男 89 91.0 82 68 82 83 233 
赵 蓄 女 91 48.0 81 65 80 6 212 
王 自 健 男 89 68.0 80 68 76 69 213 
# 删 除 无 关 变量 和 宛 余 属 性 


>DRTA1 <-DRTAL-c(2,9)] # 求 总 分 时 第 2 列 、. 第 9 列 就 是 无 关 变 量 和 宛 余 属性 
># 缺 失 值 的 识别 





> sum(is.na (DRTA) ) # 判 断 缺 失 值 个 数 

>DATAL ! complete.cases (DRTR) ,] # 展 示 缺 失 值 所 在 行 数 

> sub <-which (is.na (DATA$ 语文 )) # 识 别 缺失 值 所 在 行 并 赋值 到 sub 
>DATA 1 <- DRTR[- sub, ];DATA 2 <- DATAL sub,] 

>DATA 1;DATA 2 


姓名 性 别 语文 数学 英语 历史 地 理 生物 副科 总 分 


冯 楠 女 89 90.0 84 83 82 82 247 
姜 华 男 9%0 64.0 82 76 80 78 234 
李 平 女 86 69.0 82 72 80 74 226 
郑 舌 男 89 9.1 83 69 84 81 234 
陈 正 真 男 87 87.0 82 80 84 84 248 
王 盼 盼 女 89 69.0 84 71 80 62 213 
郑 娜 女 94 96.0 85 90 90 85 265 
杨 娟 女 87 96.0 82 81 92 86 259 
杨 爽 女 88 87.0 82 71 88 72 231 
朱 清 男 91 60.0 80 60 84 75 219 
叶 文 强 男 89 91.0 82 68 82 83 233 
赵 荤 女 91 48.0 81 65 80 67 212 
王 自 健 男 89 68.0 80 68 76 69 213 
范 彬 彬 男 NA 91 83 81 88 80 249 
董 思 思 女 NA 75 80 70 84 71 225 


>avg 语文 <-round (mean (DATA 15 语文 ) ,digits = 0) # 保 留 语 文平 均 分 的 整数 部 分 
>DATA_2$ 语文 <- rep(avg 语文 , 2) # 均 值 替 换 缺 失 值 
I >resultl <-rbind (DATA 1,DATA 2) # 并 人 完成 插 补 的 数据 
中 ># 异 常 值 识 别 
| >par (mfrow = c(1, 2)) # 将 绘图 窗口 划分 为 一 行 两 列 
> dotchart (DRTAS 数学 ) # 绘 制 单 变量 散 点 图 
>boxplot (Damas 数学 , horizontal = 7T) # 绘 制 水 平 箱 线 图 ( 见 图 3-1) 
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图 3-1 绘制 水 平 箱 线 图 


>result1[4,4] <- 91# 异 常 值 处 理 
姓名 性 别 语文 数学 英语 历史 地 理 生物 副科 总 分 


冯 楠 女 89 90 84 83 82 82 247 
姜 华 男 90 64 82 76 80 78 234 
李 平 女 86 69 82 72 80 74 226 
郑 舌 男 89 91 83 69 84 81 234 
陈 正 真 男 87 87 82 80 84 84 248 
王 盼 盼 女 89 69 84 71 80 62 213 
郑 娜 女 94 96 85 90 90 85 265 
杨 娟 女 87 96 82 81 92 86 259 
杨 爽 女 88 87 82 71 88 72 231 
朱 清 男 91 60 80 60 84 75 219 
叶 文 强 男 89 91 82 68 82 83 233 
赵 某 女 91 48 81 65 80 6 212 
王 自 健 男 89 68 80 68 76 69 213 
范 彬 彬 男 89 91 83 81 88 80 249 
董 思 思 女 89 75 80 70 84 71 225 


根据 上 面 针 对 异常 值 的 检测 和 处 理 方法 可 直观 地 看 到 , 范 彬 彬 和 董 思 思 的 语文 成 绩 缺 
失 , 并 且 用 均值 89 进行 了 替补 。 郑 舌 数 学 9. 1 分 ,估计 是 失误 输入 了 一 个 小 数 点 导致 的 ,所 
以 直接 用 91 代替 。 

由 于 这 个 数据 集 处 理 缺失 值 时 不 适合 用 持 补 法 ,所 以 只 用 了 均值 法 填充 。 


3.3.3 数据 集成 


数据 集成 是 指 将 多 个 数据 源 中 的 数据 合并 ,并 存放 到 一 个 一 致 的 数据 存储 (如 数据 仓 
库 ) 中 的 过 程 。 在 数据 集成 时 ,首先 要 考虑 如 何 对 多 个 数据 集 进行 匹配 ,数据 分 析 者 或 计算 
机 需要 识别 出 能 够 连接 两 个 数据 库 的 实体 信息 。 还 要 考虑 元 余 属性 的 问题 ,两 个 数据 集 有 
两 个 命名 不 同 但 是 实际 数据 相同 的 属性 ,那么 其 中 一 个 属性 就 是 完 余 的 。 男 外 一 个 属性 若 
可 以 通过 另 一 个 属性 的 一 定 变 换 得 出 ,那么 其 中 一 个 属性 就 是 宛 余 的 。 

数据 集成 的 难点 可 以 归纳 为 以 下 主要 方面 。 

异 构 性 : 被 集成 的 数据 源 通常 是 独立 开发 的 ,数据 模型 异 构 , 给 集成 带 来 很 大 困难 。 这 
些 异 构 性 主要 表现 在 数据 语义 、 相 同 语义 数据 的 表达 形式 、 数 据 源 的 使 用 环境 等 。 

分 布 性 : 数据 源 是 异地 分 布 的 ,依赖 网 络 传输 数据 ,这 就 存在 网 络 传输 的 性 能 和 安全 性 
等 问题 。 

自治 性 : 各 个 数据 源 有 很 强 的 自治 性 ,它们 可 以 在 不 通知 集成 系统 的 前 提 下 改变 自身 
的 结构 和 数据 ,给 数据 集成 系统 带 来 困难 和 新 问题 。 

下 面 介绍 几 种 常用 的 数据 集成 方法 。 

1. 联邦 数据 库 

联邦 数据 库 是 早期 人 们 采用 的 一 种 模式 集成 方法 。 模 式 集成 是 人 们 最 早 采用 的 数据 集 
成 方法 。 其 基本 思想 是 ,在 构建 集成 系统 时 将 各 数据 源 的 数据 视图 集成 为 全 局 模式 ,使 用 户 
能 够 按照 全 局 模式 透明 地 访问 各 数据 源 的 数据 。 全 局 模式 描述 了 数据 源 共 享 数据 的 结构 、 
语义 及 操作 等 。 用 户 直接 在 全 局 模式 的 基础 上 提交 请 求 , 由 数据 集成 系统 处 理 这 些 请 求 , 转 
换 成 各 个 数据 源 在 本 地 数据 视图 基础 上 能 够 执行 的 请 求 。 模 式 集成 方法 的 特点 是 直接 为 用 


户 提供 透明 的 数据 访问 方法 。 由 于 用 户 使 用 的 全 局 模式 是 虚拟 的 数据 源 视 图 ,一 些 学 者 也 
把 模式 集成 方法 称 为 虚拟 视图 集成 方法 。 模 式 集成 要 解决 两 个 基本 问题 : 构建 全 局 模式 与 
数据 源 数据 视图 间 的 映射 关系 ,处 理 用 户 在 全 局 模式 基础 上 的 查询 请 求 。 

模式 集成 过 程 需要 将 原来 异 构 的 数据 模式 作 适 当 的 转换 ,消除 数据 源 间 的 异 构 性 ,映射 
成 全 局 模式 。 全 局 模式 与 数据 源 数据 视图 间 映 射 的 构建 方法 有 两 种 : 全 局 视图 法 和 局 部 视 
图 法 。 全 局 视图 法 中 的 全 局 模式 是 在 数据 源 数据 视图 基础 上 建立 的 , 它 由 一 系列 元 素 组 成 ， 
每 个 元 素 对 应 一 个 数据 源 ,表示 相应 数据 源 的 数据 结构 和 操作 ; 局 部 视图 法 先 构建 全 局 模 
式 ,数据 源 的 数据 视图 则 是 在 全 局 模式 基础 上 定义 ,由 全 局 模式 按 一 定 的 规则 推理 得 到 。 用 
户 在 全 局 模式 基础 上 的 查询 请 求 需要 被 映射 成 各 个 数据 源 能 够 执行 的 查询 请 求 。 

在 联邦 数据 库 中 ,数据 源 之 间 共 享 自己 的 一 部 分 数据 模式 ,形成 一 个 联邦 模式 。 联 邦 数 
据 库 系统 按 集成 度 可 分 为 两 类 : 紧密 耦合 联邦 数据 库 系 统 和 松散 耦合 联邦 数据 库 系 统 。 紧 
密 耦合 联邦 数据 库 系 统 使 用 统一 的 全 局 模式 ,将 各 数据 源 的 数据 模式 映射 到 全 局 数据 模式 
上 ,解决 了 数据 源 间 的 异 构 性 。 这 种 方法 集成 度 较 高 ,用 户 参 与 少 ; 缺点 是 构建 一 个 全 局 数 
据 模式 的 算法 复杂 ,扩展 性 差 。 松 散 耦 合 联邦 数据 库 系 统 比较 特殊 ,没有 全 局 模式 ,采用 联 
邦 模式 。 该 方法 提供 统一 的 查询 语言 ,将 很 多 异 构 性 问题 交 给 用 户 自 己 去 解决 。 松 散 耦 合 
方法 对 数据 的 集成 度 不 高 ,但 其 数据 源 的 自治 性 强 、 动 态 性 能 好 ,集成 系统 不 需要 维护 一 个 
全 局 模式 。 

2. 中 间 件 集成 方法 

中 间 件 集成 方法 是 目前 比较 流行 的 数据 集成 方法 ,中 间 件 模式 通过 统一 的 全 局 数据 模 
型 来 访问 异 构 的 数据 库 、 遗 留 系 统 、Web 资源 等 。 中 间 件 位 于 异 构 数 据 源 系 统 ( 数 据 层 ) 和 
应 用 程序 (应 用 层 ) 之 间 , 向 下 协调 各 数据 源 系统 ,向 上 为 访问 集成 数据 的 应 用 提供 统一 数据 
模式 和 数据 访问 的 通用 接口 。 

各 数据 源 的 应 用 仍然 继续 负责 完成 它们 自己 的 任务 ,中 间 件 系统 则 集中 为 异 构 数 据 源 
提供 一 个 高 层次 检索 服务 。 通 过 在 中 间 层 提供 一 个 统一 的 数据 逻辑 视图 来 隐藏 底层 的 数据 
细节 ,使 得 用 户 可 以 把 集成 数据 源 看 作 一 个 统一 的 整体 。 这 种 模型 下 的 关键 问题 是 如 何 构 
造 这 个 逻辑 视图 并 使 不 同 数据 源 之 间 能 映射 到 这 个 中 间 层 。 

G. Wiederhold 最 早 给 出 了 基于 中 间 件 的 集成 方法 的 构架 。 与 联邦 数据 库 不 同 ,中 间 件 
系统 不 仅 能 够 集成 结构 化 的 数据 源 信息 ,还 可 以 集成 半 结 构 化 或 非 结构 化 数据 源 中 的 信息 ， 
如 Web 信息 。 美 国 斯 坦 福 大 学 Garcia-Molina 等 在 1994 年 开发 了 TSIMMIS 系统 ,就 是 一 
个 典型 的 中 间 件 集成 系统 。 

典型 的 基于 中 间 件 的 数据 集成 系统 ,主要 包括 中 间 件 和 封装 器 。 每 个 数据 源 对 应 一 个 
封装 器 ,中 间 件 通过 封装 器 和 各 个 数据 源 交互 。 用 户 在 全 局 数据 模式 的 基础 上 向 中 间 件 发 
出 查询 请 求 。 中 间 件 处 理 用 户 请 求 ,将 其 转换 成 各 个 数据 源 能 够 处 理 的 子 查询 请 求 , 并 对 此 
过 程 进行 优化 ,以 提高 查询 处 理 的 并 发 性 ,减少 响应 时 间 。 封 装 器 对 特定 数据 源 进行 了 封 
装 ,将 其 数据 模型 转换 为 系统 所 采用 的 通用 模型 ,并 提供 一 致 的 访问 机 制 。 中 间 件 将 各 个 子 
查询 请 求 发 送 给 封装 器 ,由 封装 器 和 其 封装 的 数据 源 交互 ,执行 子 查询 请 求 , 并 将 结果 返回 
给 中 间 件 。 

3. 数据 仓库 方法 

数据 仓库 方法 是 一 种 典型 的 数据 复制 方法 。 该 方法 将 各 个 数据 源 的 数据 复制 到 数据 仓 





库 。 用 户 则 像 访问 普通 数据 库 一 样 直接 访问 数据 仓库 。 

数据 仓库 是 在 数据 库 已 经 大 量 存在 的 情况 下 ,为 了 进一步 挖掘 数据 资源 和 决策 需要 而 
产生 的 。 目 前 ,大 部 分 数据 仓库 还 是 用 关系 数据 库 管理 系统 来 管理 ,但 数据 仓库 并 不 是 所 谓 
的 “大 型 数据 库 ”。 数 据 仓库 方案 建设 的 目的 是 将 前 端 查询 和 分 析 作为 基础 ,由 于 有 和 较 大 的 
元 余 , 所 以 需要 的 存储 容量 也 较 大 。 数 据 仓库 是 一 个 环境 ,而 不 是 一 件 产品 ,提供 用 户 用 于 
决策 支持 的 当前 和 历史 数据 ,这 些 数据 在 传统 的 操作 型 数据 库 中 很 难 或 不 能 得 到 。 

数据 仓库 技术 是 为 了 有 效 地 把 操作 型 数据 集成 到 统一 的 环境 中 以 提供 决策 型 数据 访问 
的 各 种 技术 和 模块 的 总 称 。 所 做 的 一 切 都 是 为 了 让 用 户 更 快 、 更 方便 地 查询 所 需要 的 信息 ， 
提供 决策 支持 。 

简 而 言 之 ,从 内 容 和 设计 的 原则 来 讲 , 传 统 的 操作 型 数据 库 是 面向 事务 设计 的 ,数据 库 
中 通常 存储 在 线 交易 数据 ,设计 时 尽量 避免 元 余 , 一 般 采 用 符合 范式 的 规则 来 设计 。 而 数据 
仓库 是 面向 主题 设计 的 ,数据 仓库 中 存储 的 一 般 是 历史 数据 ,在 设计 时 有 意 引入 宛 余 ,采用 
反 范 式 的 方式 来 设计 。 

从 设计 的 目的 来 讲 ,数据 库 是 为 捕获 数据 而 设计 ,而 数据 仓库 是 为 分 析 数 据 而 设计 , 它 
的 两 个 基本 的 元 素 是 维 表 和 事实 表 。 维 是 看 问题 的 角度 ,例如 时 间 、 部 门 , 维 表 中 存放 的 就 
是 这 些 角度 的 定义 ; 事实 表 里 放 着 要 查询 的 数据 ,同时 有 维 的 ID。 

在 R 中 数据 集成 是 指 将 两 个 数据 框 中 的 数据 以 关键 字 为 依据 ,以 行为 单位 做 列 合并 ， 
可 通过 merge() 函数 实现 ,基本 属性 形式 为 merge( 数 据 框 1 ,数据 框 2,by=" 关 键 字 "), 合 
并 后 的 新 数据 自动 按 关键 字 取 值 的 大 小 升序 排列 。 


3.3.4 数据 变换 


在 数据 变换 中 ,数据 被 变换 成 适用 于 数据 挖掘 需求 的 形式 ,数据 变换 策略 主要 包含 以 下 
几 种 。 

1. 简单 函数 变换 

简单 函数 变换 是 对 原始 数据 进行 某 些 数 字 函 数 变 换 , 常 用 的 包括 平方 . 开 方 、 取 对 数 和 
差分 运算 等 , 即 
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X= 二 ZX 
大 
xX’ = log(zx) 


?f(z) = f(xm)— f(r) 

简单 函数 变换 常用 来 将 不 具有 正 态 分 布 的 数据 变换 成 具有 正 态 分 布 的 数据 。 在 时 间 序 
列 分 析 中 ,有 时 简单 的 对 数 变换 或 差分 运算 就 可 以 将 非 平稳 序列 转换 成 平稳 序列 。 

2. 规范 化 

数据 标准 化 ( 归 一 化 ) 处 理 是 数据 挖掘 的 一 项 基础 工作 。 不 同 评价 指标 往往 具有 不 同 的 
量 纲 (dimension, 指 物理 量 的 基本 属性 ) ,数值 间 的 差别 可 能 很 大 ,不 进行 处 理 可 能 影响 到 数 
据 分 析 的 结果 。 为 了 消除 指标 之 间 的 量 纲 和 取 值 范围 差异 的 影响 ,需要 进行 标准 化 处 理 , 将 
数据 按照 比例 进行 缩放 ,使 之 落 入 一 个 特定 的 区 域 .便于 进行 综合 分 析 。 

1) min-max 标准 化 

该 函数 将 特征 转化 ,以 使 它 的 所 有 值 都 落 在 0 和 1 之 间 。 将 特征 进行 min-max 标准 化 








的 公式 如 下 所 示 。 本 质 上 ,该 公式 就 是 特征 z 的 每 一 个 值 减 去 它 的 最 小 值 再 除 以 特征 zx 的 
值 域 。 


二 工 一 min 
max 一 min 
2) 小 数 定 标 标准 化 
通过 移动 属性 值 的 小 数位 数 ,将 属性 值 映 射 到 [一 1,1] 之 间 , 移 动 的 小 数位 数 取决 于 属 
性 值 绝对 值 的 最 大 值 。 
3 
zx" = 


3) z-score 标准 化 
下 面 的 公式 是 减 去 特征 x 的 均值 后 ,再 除 以 z 的 标准 差 。 


* 立 一 并 
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【 例 3-7】 用 min-max 标准 化 和 小 数 定 标 标准 化 两 种 方法 标准 化 同样 一 组 数据 集 。 


>DATA <- read.csv("F:\daikuan.csv") ;DATA 


年 龄 ”贷款 金额 
25 10000 
26 21000 
28 35000 
30 25000 
32 59000 
35 54100 
48 60000 


>normalize = function (x){ 

+return((x -min(x))/ (max(x) -min(x))) 

+]}# 自 定义 min-max 标准 化 函数 

>DATA]l <-—as.data.frame (lapply (DATA, normalize)) ;DATAl 
年 龄 ”贷款 金额 

0.00000000 0.000 

0.04347826 0.220 

0.13043478 0.500 

0.21739130 0.300 

0.30434783 0.980 

0.43478261 0.882 

1.00000000 1.000 

> DATA2 < — scale (DATA) ;DATA2 


年 龄 贷款 金额 
[1,] -0.8914004 -1.3765149 
[2,] - 0.7640574 一 0.8304477 
[3,] -0.5093716 -0.1354530 
[4,] -0.2546858 -0.6318778 


[5,] 0.0000000 1.0559663 
[6,] 0.3820287 0.8127182 
[7,] 2.0374865 1.1056088 
> 订 <- ceiling (log (max (abs (DATA) ),10)) # 小 数 定 标 的 指数 


> DATA3 < — DATA/10^i1;DATA3 
年 龄 ”贷款 金额 
0.00025 0.100 
0.00026 0.210 
0.00028 0.350 
0.00030 0.250 
0.00032 0.590 
0.00035 0.541 
0.00048 0.600 


变量 的 标准 化 有 多 种 方法 ,不 同 的 方法 标准 后 得 到 的 数据 有 不 同 的 特征 。 例 如 ,min- 
max 标准 化 的 所 有 值 都 落 在 0 和 1 之 间 。 具 体 的 可 以 根据 实际 情况 选取 应 该 使 用 哪 种 方法 
来 进行 标准 化 。 

4) 连续 属性 离散 化 

常用 的 离散 方法 有 等 宽 法 、 等 频 法 和 一 维 聚 类 法 。 

等 宽 法 将 属性 的 值 域 分 成 具有 相同 宽带 的 区 间 , 区 间 的 个 数 由 数据 本 身 的 特点 决定 或 
者 由 用 户 指定 ,类似 于 制作 频率 分 布 表 。 

等 频 法 将 相同 数量 的 记录 放 在 每 个 区 间 。 

3. 基于 聚 类 分 析 法 

一 维 聚 类 的 方法 包括 两 个 步骤 : 首先 将 连续 性 的 值 用 聚 类 算法 (如 K-Means) 进 行 聚 
类 ,然后 再 将 聚 类 得 到 的 簇 进行 处 理 , 合 并 到 一 个 簇 的 连续 属性 值 作 同 一 标记 。 聚 类 分 析 的 
离散 化 方法 也 需要 用 户 指定 簇 的 个 数 , 从 而 决定 产生 的 区 间 数 。 

【 例 3-8】 使 用 R 语言 ,用 等 宽 法 .等 频 法 和 一 维 聚 类 法 三 种 方法 离散 化 处 理 一 组 随机 
数据 。 


>DATA <-matrix (rnorm(100) ,100,1) # 产 生 100 个 服从 正 态 分 布 的 随机 数 
>head (DATA) 
[, 习 
[1,] 0.42778580 
[2,] -0.09346903 
[3,] 0.80432187 
[4,] 1.67000479 
[5,] 0.11233859 
[6,] -0.11544584 
>DATA <-as.data.frame (DATA) 
>v1 <-ceiling (DATA[ ,1]) # 等 宽 法 
>plot (DATA[ ,1], v1) # 绘 图 展示 离散 化 结果 如 图 3-2 所 示 
# 等 频 离散 化 
>names (DATA) <-c('f') # 变 量 重 命名 
>attach (DATA) # 绑 定数 据 集 
> seq(0，length (f) ，length (f) /6) # 等 频 划 分 为 6 组 
[1] 0.00000 16.66667 33.33333 50.00000 66.66667 83.33333 100.00000 
>v= sort (f) # 按 大 小 排序 作为 离散 化 依据 
>v2 = rep(0, 100) # 定 义 新 变量 
>for(i in 1:100) v2[i] = ifelse(f[i] <= Ww16],1, 
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图 3-2 ”等 宽 法 的 离散 化 结果 


+ ifelse(f[i] <= w33], 2, 

ifelse(f£[i] <= 50],3, 

+ ifelse(f{[i] <= wsé66], 4, 

+ ifelse(f[i] <= v83], 
+ 5, 6))))) 

> detach (DATA) 


>plot (DATA[ ,1]，v2) # 绘 图 展示 离散 化 结果 如 图 3- 3 所 示 
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图 3-3 等 频 法 的 离散 化 结果 


# 聚 类 离散 化 

>result = kmeans (DATA，6) 

>v3= result$ cluster 

>plot (DATA[ ,1] ,v3) # 绘 图 展示 离散 化 结果 如 图 3- 4 所 示 
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图 3-4 一 维 聚 类 法 的 离散 化 结果 


例 3-8 分 别 用 等 宽 法 ,等 频 法 和 一 维 聚 类 法 对 数据 进行 离散 化 ,将 数据 分 成 六 类 ,然后 
将 每 一 类 记 为 同一 个 标识 ,如 分 别 记 为 al .a2、a3、a4、a5 和 a6, 再 进行 建 模 。 


3.3.5 数据 规约 


在 大 数据 集 上 进行 复杂 的 数据 分 析 和 挖掘 需要 很 长 的 时 间 ,数据 规约 主要 是 为 了 在 尽 
可 能 保持 数据 原貌 的 前 提 下 ,最 大 限度 地 精简 数据 量 ,得 到 源 数 据 集 的 规约 表示 。 与 非 规约 
数据 相 比 ,在 规约 的 数据 上 进行 挖掘 ,所 需 的 时 间 和 内 存 资 源 更 少 ,挖掘 更 有 效 。 常 用 维 规 
约 数值 规约 等 方法 实现 。 

目前 面临 的 最 重要 的 难题 就 是 维 数 灾难 (Curse of Dimensionality) 。 维 数 灾难 通常 是 
指 在 涉及 向 量 计算 的 问题 中 , 随 着 维 数 的 增加 ,计算 量 呈 指数 级 增长 的 一 种 现象 。 维 数 灾难 
涉及 数字 分 析 、 抽 样 、 组 合 、 机 器 学 习 、 数 据 挖掘 和 数据 库 等 诸多 领域 。 

常用 的 维 规约 的 方法 有 : AIC 准则 通过 选择 最 优 模型 来 选择 属性 ,LASSO 方法 通过 一 
定 约束 条 件 选择 变量 ,分 类 树 .随机 森林 通过 对 分 类 效果 的 影响 来 筛选 属性 ,小 波 变换 和 主 
成 分 分 析 通 过 把 原 数据 变换 或 投影 到 较 小 的 空间 来 降低 维 数 ,以 及 用 特征 选择 方法 进行 

1. LASSO 方法 

LASSO(Least Absolute Shrinkage and Selection Operator) 是 近年 来 被 广泛 应 用 于 参 
数 估计 和 变量 选择 的 方法 之 一 ,并 且 在 确定 的 条 件 下 进行 变量 选择 已 经 被 证 明 是 一 致 的 。 
这 种 算法 通过 构造 一 个 惩罚 函数 获得 一 个 精炼 的 模型 ,再 通过 它 压 缩 一 些 系数 ,并 最 终 确 定 
一 些 指标 的 系数 为 零 。LASSO 实现 了 指标 集合 精简 的 目的 ,是 一 种 处 理 具有 复 共 线性 数 
据 的 有 偏 估计 。LASSO 的 基本 思想 是 在 回归 系数 的 绝对 值 之 和 小 于 一 个 常数 的 约 东 条 件 
下 ,使 残 差 平方 和 最 小 化 ,从 而 能 够 产生 某 些 严格 等 于 零 的 回归 系数 ,得 到 解释 力 较 强 的 

2. 特征 选择 方法 

目前 关于 特征 选择 的 方法 主要 有 两 大 类 , 即 封装 法 和 过 滤 法 。 





封装 法 : 将 特征 选择 过 程 与 训练 过 程 融合 在 一 起 ,以 模型 的 预测 能 力作 为 特征 选择 的 
衡量 标准 。 例 如 在 多 元 线性 模型 中 ,我们 常常 会 使 用 逐步 回归 的 方法 进行 变量 的 筛选 ,这 里 
的 逐步 回归 就 属于 封装 法 的 一 种 。 封 装 法 可 以 选 出 高 质量 的 变量 子 集 ,但 运行 速度 上 会 大 
打折 扣 。 

过 滤 法 : 与 封装 法 不 同 的 是 特征 选择 过 程 与 训练 过 程 相互 独立 ,通过 分 析 变 量 内 部 的 
关系 进行 筛选 操作 ,与 训练 模型 的 选择 并 没有 关系 。 例 如 通过 变量 间 的 相关 性 、 近 零 方 差 检 
验 、 聚 类 分 析 等 方法 选择 出 来 的 变量 ,再 用 于 不 同 的 训练 模型 构建 .评估 等 。 过 滤 法 虽然 在 
速度 上 比 封 装 法 更 占 优 势 , 但 可 能 会 删除 非常 有 实质 意义 的 变量 。 

3. 主 成 分 分 析 方 法 

主 成 分 分 析 (Principal Component Analysis, PCA) 是 考察 多 个 变量 间 相 关 性 的 一 种 多 
元 统计 方法 ,是 由 Pearson(1901 年 ) 提 出 ,后 被 Hotelling(1933 年 ) 发 展 。 研 究 如 何 通 过 少 
数 几 个 主 成 分 来 揭示 多 个 变量 间 的 内 部 结构 , 即 从 原始 变量 中 导出 少数 几 个 主 成 分 ,使 它们 
尽 可 能 多 地 保留 原始 变量 的 信息 , 且 彼 此 间 互 不 相关 。 通 常数 学 上 的 处 理 就 是 将 原来 P 个 
指标 作 线 性 组 合 , 作 为 新 的 综合 指标 。 

在 R 中 ,可 以 用 stats 包 中 的 prcomp() 函 数 及 princmp () 因数 进行 主 成 分 分 析 。 
princomp(O 〇 函数 的 使 用 格式 为 








Princomp (formula, data= NULL, subset,na.action, ...) 
其 中 ,formula 是 没有 响应 变量 的 公式 ; data 是 数据 框 。 或 者 


princomp (x, cor= FALSE, scores= TRUE, covmat= NILL, 

subset= rep (TRUE, nrow (as .matrix (x))), ...) 

其 中 ,x 是 用 于 主 成 分 分 析 的 数据 ,以 数据 矩阵 或 者 数据 框 的 形式 给 出 ; cor 是 逻辑 变 
量 , 当 cor 二 TRUE 时 表示 用 样本 的 相关 矩阵 R 作 主 成 分 分 析 , 当 cor 二 FALSE( 默 认 值 ) 时 
表示 用 样本 的 协 方差 阵 S 作 主 成 分 分 析 ; covmat 是 协 方差 阵 ,如果 数据 不 用 x 提供 ,可 由 
协 方差 阵 提 供 。 

【 例 3-9】 用 主 成 分 分 析 对 某 地 区 15 天 的 中 午 空气 污染 数据 (kongqi 数据 集 ) 进 行 降 


>kongqi <- read.csv ("F:\kongqi .csv") 
> kongqi 
风速 ”太阳 辐射 co NO NO2 03 HC 
8 8. 3 人 -28 和 
了 3 .0 
了 103 4 3 5 6 3 
10 88 5 2 8 15 4 
6 一 本 0 3 
8 0 与 时 下 抽 和 
9 84 74 10 15 5 
6 驶 二-2 2 
7 72 7 4 18 10 3 
10 人 
10 72 4 1 8 10 3 
要 EA! 多 53 





各 姑 上 -世上 有 区 这 


6 6 6211 1 3 
8 和 36 5 了 2 
>names (kongqi) <-paste0('x',1:7) # 属 性 变 了 重 命名 
> kongqi.pr <- Princomp (kongqi, cor = T) 
> summary (kongqi .pr, loading = T) 
# kongqi .pr 的 有 关 信息 如 图 3-5 所 示 


Importance of components: 
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 
Standard Deviation 1.5500131 1.1841285 1.0802124 0.9420299 0.76991161 0.64953143 
Proportion of Variance 0.3432201 0.2003086 0.1666941 0.1267743 0.08468056 0.06027015 
Cumulative Proportion 0.3432201 0.5435287 0.7102228 0.8369972 0.92167772 0.98194787 
Comp.7 
Standard deviation 0.35547841 
Proportion of Variance 0.01805213 
Cumulative Proportion 1.00000000 


图 3-5 ”kongqi. pr 的 有 关 信 息 


Loadings: 
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 
风速 0.702 -0.296 -0.287 -0.183 -0.500 0.230 
太阳 辐射 0.881 -0.125 -0.405 0.190 
co -0.565 -0.161 -0.139 -0.105 0.219 -0.465 -0.601 
No -0.444 -0.204 0.440 -0.678 -0.163 0.282 
NO2 -0.343 -0.306 -0.775 -0.101 0.240 0.337 
03 -0.493 0.231 0.303 0.608 0.153 0.464 
HC -0.349 0.540 0.326 -0.269 0.512 -0.377 


summary() 函数 列 出 了 主 成 分 分 析 的 重要 信息 ,Standard Deviation 行 表 示 的 是 主 成 分 


的 标准 差 。Proportion of Variance 行 表 示 的 是 方差 的 贡献 率 。Cumulative Proportion 行 表 
示 的 是 方差 的 累积 贡献 率 。 


由 于 在 summary() 函数 的 参数 中 选取 了 loadings 二 ,因此 列 出 了 loadings( 载 荷 ) 的 内 


容 , 它 实际 上 是 主 成 分 对 应 于 原始 变量 属性 的 系数 。 因 此 














2Z1= 一 0.565* x3 一 0. 444 * x4—0. 343 * x5—0. 493 * x6 一 0. 349 * x7 

2Z2= 0.702 x x1—0. 161 x* x3—0. 204 * x4 一 0. 306 * x5 十 0. 231 x x6 十 0. 540 x x7 

2Z3= 一 0.296 * xl 二 0. 881 * x2 一 0. 139 * x3 十 0. 326 x x7 

Z4 一 0.287 x xl 十 0. 125 x x2 十 0. 105 x* x3 一 0. 440 x* x4 二 0. 775 x* x5 一 0. 303 x* x6 

25= —0.183* xl 十 0.219 * x3 一 0. 678 * x4—0. 101 * x5 十 0. 608 * x6—0. 269 * x7 

由 于 前 两 个 主 成 分 的 累积 贡献 率 已 达到 92%, 另 外 两 个 主 成 分 可 以 舍弃 ,从 而 达到 降 








维 的 目的 。 


【 例 3-10】 数值 规约 。 


>type <- read.csv("F:\type.csv") 
>type 








i. 
2 
4 
6 
8 
7 
6 
5 
2 
学 
4 
8 
9 
8 
学 


加 


>class (type) 

[1] "data.frame" 

>type[ ,1] 

[1]J12312468765234897899 

>cha= 0 

>for (i in 1:20) { 

+ if(type[i,1] >6) cha[i] = 'A'# 将 大 于 6 的 数字 定义 为 A 
+ else if(type[i,1] >4) cha[i] = 'B' # 将 大 于 4 小 于 6 的 数字 定义 为 B 
+ else cha[i] = 'Cc'"# 将 其 余 的 定义 为 c 

4 

>type[ ,1] = factor (cha) 

> surmary (type[ ,1]) 

ABC 

839 


这 样 做 可 以 把 9 个 数据 定义 为 3 类 ,相对 来 说 减少 了 空间 资源 的 占用 。 这 种 归 约 方法 
对 于 大 数据 的 预 处 理 很 有 必要 。 


3.4 Hadoop 中 的 数据 预 处 理应 用 


在 Hadoop 生态 圈 中 ,数据 预 处 理 可 以 使 用 多 种 技术 手段 。 本 节 学 习 常 用 的 可 实现 数 
据 预 处 理 的 框架 和 工具 。 


3.4.1 使 用 MapReduce 进行 数据 预 处 理 


通过 Hadoop 中 的 MapReduce 对 存储 在 HDFS 中 的 数据 进行 处 理 , 可 以 对 数据 进行 抽 
取 、 去 重 等 处 理 。MapReduce 是 一 个 实现 大 数据 集 并 行 运算 的 编程 模型 ,通常 可 以 使 用 
Java 语言 或 Python 语言 编写 MapReduce 函数 来 实现 高 效 的 数据 处 理 和 分 布 式 计算 。 

【 例 3-11】 下 面 是 一 个 简单 的 去 重 处 理 ,filel 文件 中 存在 重复 的 数据 ,用 Java 编写 
MapReduce 程序 进行 去 重 。 


(1) MapReduce 程序 


Package com.hebut .mr; 

import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache .hadoop.io.Text; 

import org.apache .hadoop .mapreduce.Job; 

import org.apache.hadoop.mapreduce .Mapper; 

import org.apache .hadoop .mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.1ib.input .FileInputFormat; 
import org.apache .hadoop.mapreduce.1ib.output .FileOutputFormat; 
import org.apache.hadoop.util .GenericOptionsParser; 

public class Dedup { 


public static class Map extends Mapper< Object, Text, Text, Text>{ 
private static Text line=new Text (); 
Public void map (Object key, Text value,Context context) 
throws IOException, InterruptedException{ 
line=value; 
context .write (line, new Text ("")); 


} 
public static class Reduce extends Reducer< Text, Text, Text, Text> { 
public void reduce (Text key, Iterable< Text>values, Context context) 
throws IOException, InterruptedException{ 
Context .write (key, new Text ("") ) 7 
} 
} 
public static void main (String[ ] args) throws Exception{ 

Configuration conf = new Configuration(); 

Conf .set ("mapred.job.tracker", "192.168.1.2:9001"); 

String[] ioArgs=new String[ ]{"dedup in", "dedup out"}; 
String[ ] otherArgs = new GenericoptionsParser (conf, ioArgs) .getRemainingArgs (); 
if (otherArgs.length != 2) { 

System.err .println ("Usage: Data Deduplication <in><out>"); 

System.exit (2); 

} 

Job job = new Job (conf, "Data Deduplication"); 
job.setJarByClass (Dedup.class); 

job.setMapperClass (Map.class); 

job.setCombinerClass (Reduce.class); 

job.setReducerClass (Reduce .class); 

job.setOutputKeyClass (Text .class); 

job.setOoutputValueClass (Text .class); 

FileInputFormat .addInputPath (job, new Path (otherArgs[ 0])); 
FileOutputFormat .setOutputPath (job, new Path (otherArgs[1])); 
System.exit (job.waitForCompletion(true) ? 0 : 1); 

} 








(2) 数据 处 理 前 


filel: 

2012- 3-1a 
2012- 3-2b 
2012-3-3c 
2012-3-4d 
2012-3-5a 
2012-3-6b 
2012-3-76 
2012-3-3e 


file2: 

2012-3-1b 
2012-3-2a 
2012- 3-3b 
2012- 3-4d 
2012- 3-5a 
2012- 3-6c 
2012-3-7d 
2012-3-3c 


(3) 去 重 处 理 后 


2012-3-1a 
2012-3-1b 
2012- 3-2 a 
2012- 3-2b 
2012- 于 3mp 
2012- 3-3 c 
2012-3-4d 
2012-3-5a 
2012- 3- 6b 
2012- 3- 6 c 
2012- 3-7 c 
2012-3-7d 


由 处 理 结果 可 见 ,将 两 个 文件 的 16 条 记录 按照 数据 的 时 间 项 作为 键 值 ,最 终 分 类 合并 
为 12 条 无 重复 记录 。 


3.4.2 使 用 Kettle 和 Python 进行 数据 预 处 理 


大 数据 的 ETL(Extract Transform Load) 过 程 涉及 多 种 技术 手段 。 本 小 节 讨 论 将 数据 
通过 Kettle 进行 预 处 理 , 并 在 预 处 理 过程 中 使 用 Python 语言 特殊 处 理 不 规整 数据 。 

Kettle 是 在 Window、Linux、UNIX 等 操作 系统 上 运行 的 开源 的 ETL 工具 ,数据 抽取 
高 效 稳定 ,较为 通用 。Kettle 支持 多 种 数据 库 的 数据 ,其 数据 库 连接 方式 包括 JDBC、 
ODBC、JNDI 和 OCI( 访 问 Oracle DB)。 同 时 ,Kettle 也 支持 文本 .Excel 等 常用 格式 文件 的 
导入 导出 。 

使 用 Kettle 进行 数据 处 理 的 基本 过 程 如 下 : 


(1) 将 结构 化 或 非 结 构 化 数据 导入 Kettle 工具 集中 。 
(2) 使 用 Kettle 工具 进行 数据 的 ETL 预 处 理 。 可 进行 的 操作 包括 数据 类 型 的 转换 、 字 
段 的 拆 分 和 选择 、 数 据 的 清洗 、 重 复 记录 的 去 除 、 空 值 的 替换 及 数据 值 范围 的 规定 。 如 


图 3-6 所 示 。 
层 一 国 -~ 刀 ~ 


Excel 罚 出 。 ”去 除 重复 记录 











Excel 罚 出 2 


图 3-6 ”Kettle 处 理 数据 步骤 


在 使 用 大 数据 预 处 理 技术 中 ,Python 也 是 当前 最 为 重要 的 技术 之 一 。 可 安装 Python 
模块 ,通过 Python 编码 实现 不 规整 数据 的 处 理 , 最 终 得 到 质量 较 高 的 数据 。 
【 例 3-12】 对 如 图 3-7 所 示 的 源 数 据 作 数据 去 重 和 填补 空缺 值 。 


age sex type bloodpressure cholestoral sugar electrocardiographic rate exercise oldpeak slope vessels thal Variable 














70.0 1.0 4.0 130.0 322.0 0.0 2.0 109.0 0.0 2.4 2.0 3.0 3.0 2 
67.0 0.0 3.0 115.0 564.0 0.0 2.0 160.0 0.0 1.6 2.0 0.0 7.0 1 
54.0 1.0 4:0 128.0 26300000105010022010701 一 存在 空缺 值 
74.0 0.0 2.0 120.0 322.0 0.0 2.0 121.0 1.0 0.2 1.0 1.0 3.0 1 子 住人 多 但 
65.0 1.0 4.0 120.0 177.0 0.0 0.0 140.0 0.0 0.4 1.0 0.07.01 
56.0 1.0 3.0 130.0 256.0 1.0 2.0 142.0 1.0 0.6 2.0 1.0 6.0 2 
59.0 1.0 4.0 110.0 239.0 0.0 2.0 142.0 1.0 1.2 2.0 1.0 7.0 2 
50.010 4.0 140.0 293.0 0.0 2.0 170.00.01.2 2.02.07.0 
60.0 1.0 4.0 140.0 293.0 0.0 2.0 170.0 0.0 1.2 2.0 2.0 7.0 2| 
63.0 0.0 4.0 150.0 407.0 0.0 2.0 154.0 0.0 4.0 2.0 3.0 7.02 
59.0 1.0 4.0 135.0 234.0 0.0 0.0 161.0 0.0 0.5 2.0 0.0 7.0 1 有 重复 数据 
53.0 1.0 4.0 142.0 226.0 0.0 2.0 111.0 1.0 0.0 1.0 0.0 7.0 1 
6101010134.0234.00.00.0 145.000762.02.03.02 
57.0 0.0 4.0 128.0 303.0 0.0 2.0 159.0 0.0 0.0 1.0 1.0 3.0 1 
71.0 0.0 4.0 112.0 149.0 0.0 0.0 125.0 0.0 1.6 2.0 0.0 3.0 1 
4knin4ninnaiinnnnninnln1R?2n2n7n7? 


图 3-7 带 有 重复 值 和 空缺 值 的 源 数据 


主要 方法 : 将 源 数据 (文本 格式 ) 导 入 Kettle, 转 换 为 Excel 表格 ,并 进行 去 重 ; 然后 用 
拉 格 朗 日 搬 值 法 填补 空缺 值 。 

(1) 使 用 Kettle 进行 数据 去 重 

Q@ 将 文本 文件 导入 Kettle, 转 换 为 Excel 表格 ,如 图 3-8 所 示 。 





业 醒 Exce 脏 出 的 数 0274 rows) 








# ”age sox ype sugar electrocardiographic rate exercise oldpeak siope vessels thal 。 Varisble 
1 700 10 40 0 20 1090 00 24 20 30 30 2 
2 670 00 30 0 20 1500 00 16 20 00 wm li 
3 570 10 20 ‘00 0o0 1410 00 03 10 00 70 2 
4 so 10 40 ao 0o0 1050 10 02 20 10 70 1 
5 740 00 20 0 20 1210 10 02 10 10 30 1 
6 650 10 40 0 00 1400 00 04 10 oo 70 1 
7 560 10 30 10 20 120 10 06 20 10 60 2 
a 590 10 40 00 20 1420 10 12 20 10 70 2 
5 而 35 70 055 工 35 E29 万 
ho so io 40 00 20 17oo 00 20 20 70 
3 0 5 TD 07 pry EE 
2 590 10 40 1350 2340 ao oo 1610 00 05 20 00 70 1 
3 530 10 40 1420 2260 0 20 110 10 oo 10 00 70 1 
uw ao 10 30 CD) 2350 ao 20 1800 00 o0 10 oo 30 1 
15 60 10 10 pr 2340 ao on 1450 00 26 20 20 30 2 
16 50 00 40 1280 3030 0 20 1590 00 oo 10 10 30 1 


图 3-8 ” 源 数据 转换 为 Excel 数据 





O@ 使 用 Kettle 工具 进行 数据 的 去 重 处 理 。 由 于 过 程 比较 复杂 ,这 里 就 不 进行 详细 
介绍 。 
Kettle 去 重 处 理 后 的 结果 如 图 3-9 所 示 。 


@ mms | 3 Bs EMetrcs 国 Preview data| 





有 





2 步骤 名 疗 复制 的 记录 行 数 起 写 输入 输出 更 新 把 名 。 错 呈 涛 舌 时 间 。 各 度 ( 冬 记录 /种 Prifin/out 
1 文本 文件 输入 9 0 24 275 0 1 0 0 Cw 成 00s 25,000 
之 Excel 肪 出 0 _24 24 0 24 o 0 0 六 或 ols 2302 
3 ”二 天 是 Ri 有 om oo oo 0o 0oBw ol 2283 
4 ExcellBit 2 0 区， 50 o 2m 0 0 0 成 02s 1731 


图 3-9 Kettle 处 理 结 果 


由 图 3-9 可 见 ,去 除了 4 条 重复 数据 。 
图 3-10 是 经 过 去 重 处 理 的 Excel 数据 表 , 可 以 看 到 仍 包 含 两 条 带 空缺 值 的 记录 。 





a” age sex pe bloodpressure cholestoral sugar electrocardiographic rate exercse oldpeak siope vessels 。 thal Varisble 
1 7% 10 40 1l300 3220 0 20 1090 00 24 20 30 30 2 
2 so oo 30 1s0 S640 ao 20 1600 。 00 16 20 oo 70 1 
3 50 10 20 <oulr 2610 oo 0o0 10 00 03 10 00 70 2 
4 50 10 40 1280 2630 oo 0o0 1050 10 02 20 10 70 1 
5 70 oo 20 100 3220 0 20 1210 10 02 10 10 30 1 
5 650 10 40 1200 1770 ao 00 3400 00 04 10 oo 70 1 
7 5s60 10 30 100 2560 10 20 1420 10 065 20 10 60 2 
8 590 10 40 loo 2390 oo 29 1420 10 12 20 10 70 2 
Lt et et es ea ta tt a at | 
ECE 075 Co 0 0 0 0 30 7 
1 590 10 40 1350 2340 0 00 1610 。 00 05 20 00 70 1 
2 50 10 40 1l420 2260 oo 20 110 10 o0 10 00 70 1 
B33 40 10 30 enl> 2350 oo 20 1800 00 o0 10 0o0 30 1 
MW 60 10 10 140 2340 ao 00 1450 。 00 26 20 20 30 2 
15 S50 00 40 1280 3030 0 20 1590 00 00 10 10 30 1 
1 70 0 40 120 1490 oo 0o0 1250 00 16 20 00 30 1 


图 3-10 带 有 空缺 数据 的 Excel 数据 表 


(2) 用 拉 格 朗 日 插值 法 填补 空缺 值 。 

对 空缺 值 进行 填补 ,通常 可 使 用 Python 的 pandas 模块 ,编写 Python 代码 实现 拉 格 朗 
日 插值 函数 的 操作 。 

【 例 3-13】 按照 本 例 , 取 k==5, 分 为 三 种 情况 取 值 : 距 第 一 行 数值 小 于 5; 中 间 情 况 ; 
距 最 后 一 行 小 于 5。 代码 如 下 : 


import pandas as pd 
from scipy.interpolate import lagrange 


inputfile = 'D:/heart0.xls' 
outputfile = "D:/heart01.x1s" 


def FillNaN (input, output, k=5): 
data= pd.read excel (input, header=None) 
title= data[ :1] 
data= data[1:] 
for i in range (len (data-columns)) : 
for j in range(1，len(data)+1) : 
if (j >= k) and (j <len(data) -k) : 
y= data[iJ[list(range (j-k, j)) +1ist (range(j+1, j+1+k))] # 取 数 


y= xyLy.notnull()] ## 剔 除 空 值 
if (data[i].isnul1() [ji]: 
data[iJ[j] = round (lagrange (y.index, list (y)) (j)) 
elif j <k: 
y= data[ 订 [list(range(1,j)) +list (range(j+1, j+1+k))] 
y= Wy-notnul1()] 
if (data[i] .isnul1())[j]: 
data[i][j] = round (lagrange(y.index, list (y)) (j)) 
elif j >= len(data) -ks 
y= data[i 订 [1ist (range (len (data)-1- 2* k, j)) + list (range (j+1, len 
(data)))] 
y= Wy.notnul1()] 
if (data[ i].isnu11 ()[i]: 
data[i][j] = round (lagrange (y.index, list (y)) (j)) 
data= pd.concat([title, data]) 
data.to excel (output, header=None, index=False) 
FillNaN (inputfile, outputfile) 


在 本 例 中 ,在 数据 去 重 的 基础 上 填补 空缺 值 ,得 到 的 最 终 数据 集 如 图 3-11 所 示 。 


A 日 C D E F G H 1 J K L M N c 

1 age sex type bloodpresscholestorasugar electrocarcrate exercise oldpeak siope vessels thal Vanable 

2 看 4 190 32 中 2 109 0 24 2 3 3 2 
3 7 0 3 564 2 160 0 16 2 0 7 1 
4 57 1 a < 祝 ) 261 0 0 141 0 03 1 0 7 2 
5 6 1 4 263 0 0 105 1 02 2 1 7 1 
6 14 2 120 322 0 2 21 1 02 1 1 3 1 
7 55 1 4 120 17 0 0 140 0 04 1 0 7 1 
日 56 1 3 130 256 1 2 142 1 06 2 1 6 2 
9 59 1 4 110 239 0 2 142 1 12 2 1 7 2 
10 60 1 4 140 293 0 2 170 0 12 2 2 7 2 
11 53 0 4 150 407 0 2 154 0 4 2 3 7 2 
2 59 1 4 135 23% 0 0 161 0 05 2 0 7 1 
全 53 1 4 226 0 2 1 1 0 1 0 7 1 
全 44 1 3 CeD 235 0 2 180 0 0 1 0 3 1 
全 时 1 1 234 0 0 145 0 26 2 2 3 2 
1 7 0 4 128 303 0 2 159 0 0 1 1 3 1 
17 71 0 4 12 149 0 0 125 0 16 2 0 3 1 
18 46 1 4 140 311 0 0 120 1 18 2 2 7 2 
但 53 1 4 140 203 1 2 155 1 31 3 0 了 2 
20 加 1 1 10 211 0 2 4 1 18 2 0 3 1 


3-11 根据 拉 格 朗 日 中 值 定理 填补 的 数据 


大 数据 预 处 理 是 互联 网 中 数据 价值 的 挖掘 、 分 析 以 及 存储 。 预 处 理 过 程 主要 完成 对 数 
据 进行 辨别 .抽取 和 清洗 的 操作 。 在 抽取 过 程 中 ,大 数据 分 析 软 件 会 根据 数据 的 结构 和 类 
型 ,对 其 进行 深入 抽取 。 在 此 过 程 中 ,数据 抽取 会 帮助 企业 更 好 地 转化 数据 ,从 而 让 复杂 和 
单 化 ,以 便于 企业 能 够 更 好 地 处 理 数据 。 数 据 清洗 操作 主要 是 去 掉 大 数据 中 不 需要 的 信息 ， 
避免 数据 被 一 些 不 重要 的 信息 干扰 ,让 数据 更 有 价值 。 

本 章 主要 讲述 数据 预 处 理 的 相关 内 容 。 首 先是 有 关 数 据 类 型 数据 集 、 数 据 特征 与 质量 
分 析 的 相关 概念 和 描述 ,进而 分 析 数 据 采集 和 抽样 的 方法 及 应 用 特性 。 数 据 采 集 是 进行 数 
据 预 处 理 的 前 期 工作 ,抽样 其 实 是 预 处 理 过 程 中 数据 抽取 环节 的 一 种 实施 方法 。 

本 章 3. 3 节 较 为 详细 地 讲述 了 数据 预 处 理 过 程 中 数据 清洗 .数据 集成 .数据 变换 和 数据 


规约 儿 个 主要 步骤 ,并 在 每 个 步骤 论述 中 给 出 具体 实例 。 

本 章 第 四 节 简 述 大 数据 Hadoop 生态 圈 中 的 预 处 理 技术 ,讲述 较为 通用 方便 的 ETL 工 
具 Kettle 实现 数据 预 处 理应 用 实例 ,主要 展示 去 重 和 空缺 值 填 补 操 作 ,并 结合 Python 语言 
实现 拉 格 朗 日 插值 ,完成 空缺 值 填补 环节 。 














数据 类 型 、 特征、 质量 十 数据 采集 和 抽 数据 与 处 理 过 程 十 Hadoop 中 数据 与 处 
样 . mp4(22.0MB) 理应 用 . mp4(35. 6MB) 
习 是 
1. 填空 是 
(1) 数据 预 处 理 的 主要 内 容 包括 和 
(2) 导入 ,是 指 通过 各 种 工具 将 数据 在 不 同 数据 库 关 型 不 同 数据 库 结 构 的 异 
构 数据 库 之 间 进 行 数 据 同步 。 
(3) 关于 分 层 抽 样 方法 ,在 R 中 可 以 使 用 sampling 包 中 的 函数 实现 。 
(4) 处 理 异常 值 的 常用 方法 有 : 、 和 。 
(5) 对 于 简单 随机 抽样 函数 sample(), 其 中 的 参数 x 可 以 为 -一 和 
3 种 类 型 的 数据 。 
(6) 是 数据 挖掘 中 数据 准备 过 程 的 重要 步 又 ,是 预 处 理 的 前 提 , 也 是 数据 挖掘 
分 析 结 论 有 效 性 和 准确 性 的 基础 ,没有 可 信 的 数据 ,数据 挖掘 构建 的 模型 将 是 虚空 不 可 置 
信 的 。 
2. 选择 是 
(1) 下 列 用 于 绘制 箱 线 图 的 代码 参数 是 ( ys 
A. histogram B. density C. boxplot D. point 
(2) 删除 缺失 值 所 在 的 一 行 的 函数 是 ( je 
A. na.omit B. is.na C. na.rm D. na.action 


(3) 下 列 ( ) 函 数 提供 了 一 个 显示 数据 框 结构 的 方法 ,或 者 说 它 提供 了 显示 所 有 同 
时 包含 向 量 和 列表 的 数据 结构 的 方法 。 


A. str B. summary C. head D. help 
(4) 下 列 函数 中 ,( ) 用 于 离散 化 中 的 等 宽 离散 化 。 
A. ceiling B. seq C. kmeans D. sep 


(5) 数据 质量 是 保证 数据 应 用 的 基础 ,其 包括 对 数据 的 4 个 方面 的 要 求 标准 ,下 面 ( ) 
不 属于 这 4 个 方面 的 要 求 标准 。 
A. 完整 性 B 一 致 性 C. 准确 性 D. 持续 性 
(6) 下 面 的 4 个 选项 中 ,( ) 代 表 数 值 型 。 


A. int B. factor C. numeric D. character 








3. 简单 题 


(1) 参考 本 章 内 容 , 把 R 里 面 自 带 的 iris 数据 进行 标准 化 (三 种 方法 ) 。 
(2) 利用 抽样 方法 ,把 iris 数据 分 成 比例 为 7 : 3 两 份 。 

(3) 写 出 常用 的 数据 采集 方法 ,并 且 解 释 网 络 怜 虫 的 概念 。 

(4) 解释 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 。 

(5) 简介 特征 选择 中 封装 法 和 过 滤 法 两 种 方法 的 概念 和 特点 。 


R 语言 工具 的 使 用 


【内 容 摘 要 】 本 章 通 过 实例 ,简要 地 介绍 了 R 语言 在 数据 处 理 、 计 算 和 制图 中 的 一 些 
技巧 和 应 用 。 概 述 了 R 软件 的 功能 特点 : 包括 数据 存储 和 处 理 系 统 , 数 组 运算 工具 (其 向 
量 ` 和 矩阵 运算 方面 功能 尤其 强大 ); 统计 分 析 工 具 ; 统计 制图 功能 。 可 操纵 数据 的 输入 和 输 
出 ,可 实现 分 支 \ 循 环 ,用 户 可 自 定义 功能 。 

【学 习 目 标 】 部 练 掌握 R 软件 的 使 用 ; 熟悉 R 中 数据 的 基本 操作 ; 熟悉 R 语言 可 视 化 
绘图 ; 熟悉 R 语言 数据 分 析 ; 简单 了 解 RHadoop。 





41 R 语 言 概述 


R 语言 是 一 种 自由 软件 编程 语言 与 操作 环境 ,主要 用 于 统计 分 析 ,绘图 和 数据 挖掘 ,是 
S 语 言 的 一 种 实现 (S 语言 是 由 AT&T 实验 室 于 1976 年 共同 开发 的 一 种 解释 型 语言 )。R 
语言 工具 是 自由 软件 ,免费 .开放 源 代 码 , 支 持 各 种 主要 计算 机 操作 系统 。 


4.1.1 下 载 .安装 和 使 用 


1. R 语言 工具 的 下 载 

以 Windows 操作 系统 为 例 ,R 的 主 网 站 是 https://www. r-project. org/, 可 从 CRAN 
的 镜像 网 站 下 载 软件 ,其 中 一 个 镜像 为 http://mirror. bjtu. edu. cn/cran/ 。 选 择 Download 
R for Windows-base-Download R 3. 2. 2 for Windows 链接 进行 下 载 。 

RStudio 是 功能 更 强 的 一 个 R 图 形 界面 。 在 安装 好 R 的 官方 版 本 后 安装 RStudio 可 以 
更 方便 地 使 用 R。 

2. 民 软 件 的 安装 和 使 用 

R 软件 的 安装 非常 容易 ,按照 Windows 的 提示 安装 即 可 。 当 开始 安装 后 ,选择 安装 提 
示 的 语言 (中 文 或 者 英文 ) ,接受 安装 协议 ,选择 安装 目录 ,并 选择 安装 组 件 。 按 照 Windows 
的 各 种 提示 操作 , 稍 等 片刻 ,R 软件 就 安装 成 功 了 。 

安装 完成 后 ,程序 会 创建 R 程序 组 并 在 桌面 上 创建 R 主 程序 的 快捷 方式 (也 可 以 在 安 
装 过 程 中 选择 不 要 创建 ) ,通过 快捷 方式 运行 R, 便 可 调 出 R 软件 的 主 窗口 。 

安装 官方 的 R 软件 后 ,可 以 安装 RStudio。 平 时 使 用 可 以 使 用 RStudio, 其 界面 更 方便 。 

R 软件 的 界面 与 Windows 的 其 他 编程 软件 类 似 ,是 由 一 些 菜 单 和 快捷 按钮 组 成 。 快 捷 
按钮 下 面 的 窗口 便 是 命令 输入 窗口 , 它 也 是 部 分 运算 结果 的 输出 窗口 ,有 些 运算 结果 则 会 在 
新 建 的 窗口 中 输出 。 


主 窗口 上 方 的 文字 (中 文 操作 系统 , 则 显示 中 文 ) 是 刚 运 行 R 时 出 现 的 一 些 说 明和 指 
引 。 文 字 下 的 “之 ”符号 便 是 R 的 命令 提示 符 ( 和 矩形 光标 ) ,在 其 后 可 输入 命令 。R 一 般 采 用 
交互 式 工作 方式 ,在 命令 提示 符 后 输入 命令 , 回 车 后 便 会 输出 计算 结果 。 也 可 将 所 有 的 命令 
建成 一 个 文件 ,运行 这 个 文件 的 全 部 或 部 分 来 执行 相应 的 命令 ,从 而 得 到 相应 的 结果 。 

3. RGui 界面 与 运行 

RGui 是 一 款 编程 工具 ,是 R 语言 统计 建 模 软 件 。 其 功能 包括 : 拥有 数据 存储 和 处 理 系 
统 , 数 组 运算 工具 (其 向 量 、 和 矩阵 运算 方面 功能 尤其 强大 ) ,完整 连贯 的 统计 分 析 工 具 ,优秀 的 


























统计 制图 等 多 种 功能 。 
RGui 的 主 窗口 由 三 部 分 组 成 : 主 菜 单 、 工 具 条 和 R Console(R 运行 窗口 ), 如 图 4-1 
所 示 。 
公 RGui (64-bit) 
文件 编辑 查看 其 他 程序 包 宝 口 帮助 
写 图 加 蕊 国 可 图 图 
恒 R Console [= 
R version 3.3.1 (2016-06-21) -- "Bug in Your Hair" 


Copyright (C) 2016 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R 是 自由 软件 ， 不 带 任 何 担保 。 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 。 
用 'license() ' 或 'licence() ' 来 看 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 


用 'contributors() ' 来 看 合作 者 的 详细 情况 
用 'citation() ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 。 


用 'demo () ' 来 看 一 些 示 范 程序 ， 用 'help() ' 来 阅读 在 线 帮助 文件 ， 或 
用 'help.start () ' 通 过 HTML 浏 览 器 来 看 帮助 文件 。 





用 "qa() ' 退 出 R. 
[原来 保存 的 工作 空间 已 还 原 ] 
>| 
图 4-1 RGui 界 面 
4. RStudio 界面 


RStudio 是 可 以 在 Mac OS X、Linux 和 Windows 上 运行 的 R 环境 ,提供 功能 强大 和 灵 
活 的 用 户 界面 。RStudio 是 一 个 自由 和 开源 的 编程 语言 和 环境 ,提供 了 大 量 的 图 形 和 统计 
方法 以 统计 计算 和 图 形 。 

RStudio 的 界面 如 图 4-2 所 示 。 

整个 界面 划分 成 多 个 模块 进行 同步 操作 显示 ,脚本 区 控制 台 区 文件 区 非常 清晰 易 用 。 

5. RStudio 工作 目录 、 工 作 空间 

工作 空间 (Workspace) 就 是 当前 R 的 工作 环境 , 它 储存 所 有 用 户 定义 的 对 象 (向 量 、 和 矩 
阵 、 函 数 、 数 据 框 .列表 )。 在 一 个 R 会 话 结束 时 ,可 以 将 当前 工作 空间 保存 到 一 个 镜像 中 ， 
并 在 下 次 启动 R 时 自动 载 和 人 它 。 各 种 命令 可 在 R 命令 行 中 交互 式 地 输入 ,可 使 用 上 下 方向 
键 查看 已 输入 命令 的 历史 记录 。 这 样 可 以 选择 一 个 之 前 输入 过 的 命令 并 适当 修改 ,最 后 按 


[3 Rstudio 一口 





文件 区 





图 4-2 RStudio 界面 


回 车 键 重新 执行 它 。 

当前 工作 目录 (Working Directory) 是 R 用 来 读 取 文件 和 保存 结果 的 默认 目录 。 可 以 
使 用 函数 getwd() 来 查看 当前 的 工作 目录 ,或 使 用 函数 setwd() 设 定 当前 的 工作 目录 。 如 果 
需要 读 入 一 个 不 在 当前 工作 目录 下 的 文件 , 则 需 在 调用 语句 中 写 明 完整 的 路 径 。 记 得 使 用 
引号 闭合 这 些 目录 名 和 文件 名 。 

6. R 语言 的 帮助 

使 用 R 语言 的 帮助 功能 可 查阅 R 函数 、 包 相关 的 文档 及 示例 数据 集 等 资料 信息 , 见 
表 4-1。 








表 4-1 R 语言 的 帮助 
































Ea] 数 功 能 
help. start() 打开 帮助 文档 首页 
help("data") 或 ?data 查看 函数 data() 的 帮助 
vignette() 列 出 当前 已 安装 包 中 所 有 可 用 的 vignette 文档 
vignette("data") 为 主题 data 显示 指定 的 vignette 文档 
data() 列 出 当前 已 加 载 包 中 所 含 的 可 用 示例 数据 集 
apropos("data" ,mode 一 "function") 列 出 名 称 中 含有 data 的 所 有 可 用 函数 
RSiteSearch( "data") | 以 data 为 关键 词 搜 索 在 线 文 档 和 邮件 列表 存档 
example("data") 函数 data() 的 使 用 示例 





4.1.2 R 包 的 使 用 


. 什么 是 包 
包 是 R 函数 、 数 据 、 预 编译 代码 以 一 种 定义 完善 的 格式 组 成 的 集合 。 计 算 机 上 存储 包 


的 目录 称 为 库 (library)。 函 数 libPaths() 能 够 显示 库 所 在 的 位 置 ,函数 library() 则 可 以 显 
示 库 中 有 哪些 包 。 在 R 会 话 的 提示 符 盖 下 执行 的 函数 也 称 为 命令 。 

R 自 带 了 一 系列 默认 包 ( 包 括 base、datasets utils、 grDevices、 graphics、 stats 以 及 
methods) ,它们 提供 了 种 类 繁多 的 默认 函数 和 数据 集 。 其 他 包 可 通过 下 载 来 进行 安装 。 安 
装 好 以 后 ,它们 必须 被 载 入 会 话 中 才能 使 用 。 命 令 search() 可 以 显示 出 哪些 包 已 加 载 并 可 
使 用 。 

2. R 包 的 安装 

安装 一 个 R 包 , 使 用 命令 install. packages() 即 可 。 举 例 来 说 ,不 加 参数 执行 install. 
packages() 将 显示 一 个 CRAN 镜像 站 点 的 列表 ,选择 其 中 一 个 镜像 站 点 之 后 ,将 看 到 所 有 
可 用 包 的 列表 ,选择 其 中 的 一 个 包 即 可 进行 下 载 和 安装 。 如 果 已 经 知道 需要 安装 的 包 的 名 
称 ,可 以 直接 将 包 名 作为 参数 提供 给 这 个 函数 。 例 如 , 包 gclus 中 提供 了 创建 增强 型 散 点 图 
的 函数 ,可 以 使 用 命令 install. packages("gclus") 来 下 载 和 安装 它 (括号 中 一 定 要 加 引号 ) 。 
在 RGui 中 也 可 以 选择 菜单 栏 中 的 程序 包 一 安装 程序 包 , 选 择 其 中 一 个 镜像 站 点 之 后 ,将 看 
到 所 有 可 用 包 的 列表 ,选择 其 中 的 一 个 包 即 可 进行 下 载 和 安装 。 

一 个 包 仅 需 安装 一 次 。 但 和 其 他 软件 类 似 , 包 经 常 被 其 作者 更 新 。 使 用 命令 update. 
packages() 可 以 更 新 已 经 安装 的 包 。 要 查看 已 安装 包 的 描述 ,可 以 使 用 installed. packages() 命 
令 , 这 将 列 出 安装 的 包 , 以 及 它们 的 版 本 号 、 依 赖 关 系 等 信息 。 

3. R 包 的 载 入 

R 包 的 安装 是 指 从 某 个 CRAN 镜像 站 点 下 载 它 并 将 其 放 入 库 中 的 过 程 。 要 在 R 会 话 
中 使 用 它 ,还 需要 使 用 library() 命 令 载 人 这 个 包 。 例 如 ,要 使 用 gclus 包 , 执 行 命令 library 
(gclus) 即 可 。 当 然 ,在 载 人 一 个 包 之 前 必须 已 经 安装 了 这 个 包 。 在 一 个 会 话 中 , 包 只 需 载 
和 一次。 

4. 及 包 的 使 用 方法 

帮助 系统 包含 了 每 个 函数 的 一 个 描述 (同时 带 有 示例 ) ,每 个 数据 集 的 信息 也 被 包括 其 
中 。 命 令 help(package 二 "package_name") 可 以 输出 某 个 包 的 简短 描述 以 及 包 中 的 函数 名 
称 和 数据 集 名 称 的 列表 。 使 用 函数 help() 可 以 查看 其 中 作为 其 参数 的 任意 函数 或 数据 集 
的 更 多 细节 。 这 些 信息 也 能 以 PDF 帮助 手册 的 形式 从 CRAN 下 载 。 


42 R 语 言 的 基本 操作 
R 语言 基本 操作 包括 数据 的 基本 操作 和 常用 函数 的 使 用 。 


4.2.1 数据 的 基本 操作 


本 节 将 介绍 R 中 数据 的 赋值 和 创建 .数据 的 运算 以 及 从 各 种 不 同 格式 的 数据 文件 读 取 
数据 的 技术 ,对 于 统计 应 用 和 理论 研究 都 很 有 帮助 。 

1. 赋值 和 创建 

1) 变量 赋值 

如 将 10 赋值 给 a 变量 





>a<-10 


或 者 


>a= 1 


这 里 的 两 种 赋值 方式 , 即 二 一 和 二 是 一 致 的 。 
2) 数列 


>a<-1:10 


这 样 , 表 示 把 1,2,3,4,…,9,10 赋值 给 了 a 变量 ,这 样 a 就 是 一 个 数组 ,维度 为 1, 拥有 
10 个 元 素 。 

输入 a[1] 或 者 a[1:2] 查 看 第 一 个 元 素 和 第 一 到 第 二 个 元 素 是 什么 。 也 可 以 使 用 
a[ 一 5] 查 看 除了 第 五 个 元 素 以 外 的 所 有 元 素 。 

除去 第 七 个 元 素 以 外 的 所 有 元 素 取 出 赋值 给 0:2 二 一 a[ 一 7]。 

2. 数据 的 运算 

1) 基本 运算 符号 

十 ,一 、* 、/^、%% 上 %( 求 模 )、% /站 (整除 ) 。 示 例如 下 : 


>1+2 
[3 
>5.6% % 2 


[1 1.6 


2) 比较 运算 
>.<.>>=.<=.,==、!=。 示 例如 下 : 


>2>3 
[1] FAaLsE 
> 
[1] TRUE 
>4!= 2 
[1] TRoE 


3) 好 辑 运算 符号 
&& (与 ) | (或 )、! ( 非 )、&& (长 逻辑 与 运算 )、| (长 逻辑 或 运算 )。 示 例如 下 : 


> 452 
[1] TRoE 
>4582 
[1] TRoE 
>412 
[1 TRUE 


4) 集合 运算 


union (x,y) # 求 并 集 

intersect (x,y) # 求 交集 

setdiff (x,y) # 求 属于 x 而 不 属于 y 的 所 有 元 素 
3etequal (x,y) # 判 断 x 与 y 是 否 相 等 





as ings y # 判 断 a 是 否 为 y 中 的 元 素 


choose ny k) #n 个 里 面 取 k 个 的 组 合 数 

combn (x,n) #x 中 的 元 素 每 次 取 n 个 的 所 有 组 合 
combn (x,n, £) # 将 这 些 组 合用 于 指定 函数 f 
示例 如 下 : 


>x<—c(1,4,6,3) 
>y<-c(2,4,7,9) 
>union (x,y) 

[ 巧 1463279 
> intersect (x,y) 
[ya 

> setdiff (x,y) 
[J 163 

>4% ings y 

[1] TRoE 


5) 向 量化 

有 R 语言 以 向 量 为 基本 运算 对 象 。 也 就 是 说 , 当 输 入 的 对 象 为 向 量 时 ,对 其 中 的 每 个 元 素 
分 别 进行 处 理 , 然 后 以 向 量 的 形式 输出 。 以 下 是 几 个 向 量化 的 函数 使 用 示例 。 

apply() 函 数 的 处 理 对 象 是 矩阵 或 数组 。 

对 一 个 随机 和 矩阵 求 每 一 行 的 均值 。 


>data <-matrix (rnorm(100) ,ncol=10) 

>apply (data, 1,mean) 

[1] 0.34171580 0.29338032 -0.03276249 -0.50059480 0.16694147 0.24703917 
[7 0.17592112 -0.06023311 -0.29572568 0.40191488 


apply() 的 处 理 对 象 是 向 量 、 列 表 或 其 他 对 象 , 它 将 向 量 中 的 每 个 元 素 作为 参数 ,输入 处 
理 函 数 中 ,最 后 生成 结果 的 格式 为 列表 。 
对 一 个 数据 框 按 列 来 计算 中 位 数 与 标准 差 。 


>f.data <- data.frame (x=rnorm(10) ,y= runif (10)) 
>apply (f.data, FUN= function (x) list (median=median (x), sd= sd (x))) 
全 于 

$ x$ median 

[1] 0.4697532 

$ x$ sd 

[1] 0.7001406 

$y 

$ y$ median 

[1] 0.3221742 

$y$ sd 

[1] 0.3313145 


sapply() 是 使 用 频繁 的 向 量化 函数 , 它 和 apply() 是 非常 相似 的 ,但 其 输出 格式 则 是 较 


为 友好 的 矩阵 格式 。 
对 一 个 数据 框 按 列 来 计算 中 位 数 与 标准 差 。 


> sapply (f.data, FUN= function (x) list (median=median (x) ,sd=sd (x))) 


x Lg 
median 0.4697532 0.3221742 
sd 0.7001406 0.3313145 


tapply() 的 功能 专门 用 来 处 理 分 组 数据 ,其 参数 要 比 sapply 多 一 个 。 以 iris 数据 集 为 
例 ,可 观察 到 Species 列 中 存放 了 三 种 花 的 名 称 ,目的 是 要 计算 三 种 花瓣 葡 片 宽度 的 均值 ， 
其 输出 结果 是 数组 格式 。 


>head (iris) 
Sepal .Length Sepal .Width Petal.Length Petal.Width Species 


1 5.1 3.5 1.4 0.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.3 0.2 setosa 
得 4.6 3.1 1.5 0.2 setosa 
5 5.0 3.6 1.4 0.2 setosa 
6 5.4 3.9 1.7 0.4 setosa 
> attach (iris) 


>tapply (Sepal .Width, INDEX= Species, FUN=mean) 
Setosa versicolor virginica 
3.428 2.770 2.974 

6) 峰 度 和 偏 度 的 计算 

峰 度 是 描述 总 体 中 所 有 取 值 分 布 形态 陡 组 程度 的 统计 量 。 这 个 统计 量 需 要 与 正 态 分 布 
相 比 较 , 峰 度 为 0 表示 该 总 体 数据 分 布 与 正 态 分 布 的 陡 缓 程度 相同 ; 峰 度 大 于 0 表示 该 总 
体 数 据 分 布 与 正 态 分 布 相 比较 为 陡峭 ,为 尖顶 峰 ; 峰 度 小 于 0 表示 该 总 体 数据 分 布 与 正 态 
分 布 相 比较 为 平坦 ,为 平 项 峰 。 

偏 度 与 峰 度 类 似 , 它 也 是 描述 数据 分 布 形态 的 统计 量 , 其 描述 的 是 某 总 体 取 值 分 布 的 对 
称 性 。 这 个 统计 量 同 样 需 要 与 正 态 分 布 相 比较 , 偏 度 为 0 表示 其 数据 分 布 形态 与 正 态 分 布 
的 偏 斜 程度 相同 ; 偏 度 大 于 0 表示 其 数据 分 布 形态 与 正 态 分 布 相 比 为 正 偏 或 右 偏 , 即 有 一 
条 长 尾巴 拖 在 右边 ,数据 右 端 有 较 多 的 极端 值 ; 偏 度 小 于 0 表示 其 数据 分 布 形态 与 正 态 分 
布 相 比 为 负 偏 或 左 偏 , 即 有 一 条 长 尾巴 拖 在 左边 ,数据 左 端 有 较 多 的 极端 值 。 偏 度 的 绝对 值 
数值 越 大 表示 其 分 布 形态 的 偏 斜 程度 越 大 。 

R 默认 不 提供 函数 计算 这 两 个 值 。 如 果 需 要 计算 ,可 以 自 编 公式 或 者 使 用 fBasics 包 。 

加 载 fBasics 包 后 ,可 使 用 以 下 命令 进行 计算 。 

3kewness (x) # 偏 度 

kurtosis (x) ” ## 峰 度 

>x<-c(2,3,4,5,6,3,7,4,3,7,4,8,4) 

> skewness (x) 

[1 0.4510533 

attr (, "method") 

[1] "moment" 

> kurtosis (x) 

[1] -1.244636 

attr (, "method") 


[1] "excess" 





3. 数据 的 导入 

1) 从 键盘 输入 数据 

创建 一 个 名 为 data 的 数据 框 , 它 含 有 三 个 变量 : age (数值 型 )、gender (字符 型 ) 和 
weight( 数 值 型 ) 。 调 用 文本 编辑 器 ,输入 数据 ,最 后 保存 结果 ,如 图 4-3 所 示 。 


>data< - data.frame (age= numeric (0) ,gender= character (0) ,weight= numeric(0)) 
>Data< -edit (data) 



































图 4-3 数据 编辑 器 


2) 从 带 分 隔 符 的 文本 文件 里 导入 数据 
使 用 read. table() 从 带 分 隔 符 的 文本 文件 中 导入 数据 。 此 函数 可 读 入 一 个 表格 格式 的 
文件 并 将 其 保存 为 一 个 数据 框 。 其 语法 如 下 : 


Mydataframe< - read.table (file,header=1logical value, 
Sep= "delimiter", row.names= "name") 


>Grades< -read.table ("student .cav", header= TRUE, sep=",", 
row.names"st") 

从 当前 工作 目录 中 读 入 一 个 名 为 student. csv 的 逗号 分 隔 文 件 ,从 文件 的 第 一 行 取得 了 
各 变量 名 称 , 将 变量 st 指定 为 行 标识 符 。 

3) 导入 Excel 数据 

读 取 一 个 Excel 文件 的 最 好 方式 就 是 在 Excel 中 将 其 导出 为 一 个 逗号 分 隔 文 件 (csv)， 
并 使 用 前 文 描述 的 方式 将 其 导入 R 中 。 

在 Windows 系统 中 ,也 可 以 使 用 RODBC 包 来 访 Excel 文件 。 电 子 表格 的 第 一 行 应 当 
包含 变量 / 列 的 名 称 。 

首先 ,下 载 并 安装 RODBC 包 。 


install .packages ("RODBC") 
也 可 以 使 用 以 下 代码 导入 数据 。 


> library (RODBC) 

> channel< - odbcConnectExcel ("myfile.x1s") 
>mydataframe< - sqlfetch (channel, "mysheet") 
>odbcClose (channel) 





这 里 的 myfile. xls 是 一 个 Excel 文件 ,mysheet 是 要 从 这 个 工作 簿 中 读 取 工作 表 的 名 
称 ,channel 是 一 个 由 odbcConnectExcel() 返 回 的 RODBC 连接 对 象 ,mydataframe 是 返回 
的 数据 框 。RODBC 也 可 用 于 从 Microsoft Access 导入 数据 。 更 多 详情 ,参见 help 
(RODBC ) 。 

Excel 2007 使 用 了 一 种 名 为 XLSX 的 文件 格式 ,实质 上 是 多 个 XML 文件 组 成 的 压缩 
包 。xlsx 包 可 用 来 读 取 这 种 格式 的 电子 表格 。 在 第 一 次 使 用 此 包 之 前 请 务必 先 下 载 并 安 
装 好 。 包 中 的 函数 read. xlsx() 可 将 XLSX 文件 中 的 工作 表 导 入 为 一 个 数据 框 。 其 最 简单 
的 调用 格式 是 read. xlsx(file, n)。 其 中 ,file 是 Excel 2007 工作 簿 的 所 在 路 径 ,n 为 要 导入 
的 工作 表 序 号 。 

> library (xlsx) 

>workbook< — "C: /myworkbook, xlsx" 

>Mydataframe< - read.xl1sx (workbook, 1) 


4) 导入 SPSS 数据 

SPSS 数据 集 可 以 通过 foreign 包 中 的 函数 read. spss() 导 入 R 中 ,也 可 以 使 用 Hmisc 
包 中 的 spss. get() 函 数 。 函 数 spss. get() 是 对 read. spss() 的 一 个 封装 , 它 可 以 自动 设置 后 
者 的 许多 参数 。 首 先 ,下 载 并 安装 Hmisc 包 (foreign 包 已 被 默认 安装 ) 。 

>install .packages ("Hmisc") 

> library (Hmisc) 

>mydataframe< - spss.get ("mydata.sav",use.value.labels=TRUE) 


这 段 代 码 中 ,mydata. sav 是 要 导入 的 SPSS 数据 文件 ,use. value. labels TRUE 表示 让 
函数 将 带 有 值 标签 的 变量 导入 为 R 中 水 平 对 应 相同 的 因子 ,mydataframe 是 导入 后 的 数 
据 框 。 

5) 导入 Stata 数据 

要 将 Stata 数据 导入 R 中 非常 简单 直接 ,所 需 代码 类 似 于 : 


> library (foreign) 
>mydataframe< - read.dta ("mydata.dta") 


这 里 ,mydata. dta 是 Stata 数据 集 ,mydataframe 是 返回 的 R 数据 框 。 

4. 数据 的 管理 

数据 管理 问题 是 分 析 的 基础 。 下 面 用 一 个 示例 对 数据 排序 、 合 并 、 提 取 等 部 分 管理 操作 
做 解说 。 

【 例 4-1】 男性 和 女性 在 领导 各 自 企业 方式 上 不 同 ,典型 的 问题 如 下 : 

处 于 管理 岗位 的 男性 和 女性 在 听从 上 级 ( 见 表 4-2) 的 程度 上 是 否 有 所 不 同 ? 

这 种 情况 是 否 依 国家 的 不 同 而 有 所 不 同 ,或 者 说 这 些 由 性 别 导致 的 不 同 是 否 普遍 存在 ? 


表 4-2 领导 意见 表达 





意见 值 1 2 3 4 5 





意见 表达 非常 不 同意 不 同意 既 不 同意 也 不 反对 同意 非常 同意 




















结果 数据 可 能 类 似 于 表 4-3。 各 行 数据 代表 了 某 个 经 理 人 的 上 司 对 他 的 评分 。 
表 4-3 领导 行为 的 性 别 差异 




















经 理 人 日 期 国籍 性 别 年 龄 ql q2 q3 q4 q5 
1 10/24/08 US M 32 5 4 5 5 5 
2 10/28/08 US F 45 3 5 2 5 5 
3 10/01/08 UK F 25 3 5 5 5 2 
4 10/12/08 UK M 39 3 3 4 
5 05/01/09 UK F 99 2 2 1 2 炎 
































在 这 里 ,每 位 经 理 人 的 上 司 根据 与 服从 权威 相关 的 五 项 陈述 (ql 一 q5) 对 经 理 人 进行 
评分 。 

一 个 数据 集中 可 能 含有 几 十 个 变量 和 成 千 上 万 的 观测 ,但 为 了 简化 示例 , 仅 选 取 了 5 行 
10 列 的 数据 。 另 外 ,我 们 已 将 关于 经 理 人 服从 行为 的 问题 数量 限制 为 5。 在 现实 研究 中 ,可 
能 会 使 用 10 一 20 个 类 似 的 问题 来 提高 结果 的 可 靠 性 和 有 效 性 。 

创建 leadership 数据 框 : 

manager<—c(l,2,3,4,5) 

data<—c("10/24/08","10/28/08", "10/1/08","10/12/08", "5/1/09") 

country< —c ("US", "US", "UK", "UK", "UK") 

gender< —c ("M", "EE", "FE", "M", "E") 

age<- c(32, 45, 25, 39, 99) 

ql<-c(5,3,3,3,2) 

PL-c(4,5,5,3,2) 

q3<-c(5,2,5,4,1) 

q4<—c(5,5,5,NA,2) 

q5<-c(5,5,2,NA,1) 

> leadership< - data.frame (manager, data, country, gender,age, 

ql,q2,q3,q4,q5, stringAsFactors= FALSE) 

五 个 评分 (qd1 一 q5) 需 要 组 合 起 来 , 即 为 每 位 经 理 人 生成 一 个 平均 服从 程度 得 分 。 

既往 研究 表明 ,领导 行为 可 能 随 经 理 人 的 年 龄 而 改变 ,二 者 存在 函数 关系 。 要 检验 这 种 
观点 ,希望 将 当前 的 年 龄 值 重 编码 为 类 别 型 的 年 龄 组 (例如 年 轻 、 中 年 \ 年 长 )。 

1) 数据 排序 

在 R 中 ,使 用 order() 函 数 对 一 个 数据 框 进行 排序 。 上 默认 的 排序 顺序 是 升序 ,在 排序 变 
量 的 前 边 加 一 个 减 号 即 可 得 到 降序 的 排序 结果 。 以 下 示例 使 用 leadership 演示 了 数据 框 的 
排序 。 

>newdata< - leadership[ order (leadership$ age),] 


# 创 建 一 个 新 的 数据 集 , 其 中 各 行 依 经 理 人 的 年 龄 升序 排序 


>attach (leadership) 


>newdata< - leadership[ order (gender,age) ,] 

> detach (leadership) 

# 将 各 行 依 女 性 到 男性 ,同样 性 别 中 按 年 龄 升序 排序 
> attach (leadership) 

>newdata< - leadership[ order (gender,— age),] 

> detach (leadership) 

# 将 各 行 依 经 理 人 的 性 别 和 年 龄 降序 排序 

2) 数据 集 的 合并 

(1) 添加 列 。 


>total< -merge (dataframeA, dataframeB,by= "ID") 

将 dataframeA 和 dataframeB 按照 ID 进行 了 合并 。 
>total< -merge (dataframeA, dataframeB,by=c("ID", "Country")) 
将 两 个 数据 框 按照 ID 和 Country 进行 了 合并 。 

(2) 添加 行 。 

要 纵向 合并 两 个 数据 框 (数据 集 ), 请 使 用 rbind() 函 数 。 


>Total<— rbind (dataframeA, dataframeB) 


两 个 数据 框 必须 拥有 相同 的 变量 ,不 过 它们 的 顺序 不 必 一 定 相 同 。 

3) 数据 集 取 子 集 

R 拥有 强大 的 索引 特性 ,可 以 用 于 访问 对 象 中 的 元 素 。 也 可 利用 这 些 特 性 对 变量 或 观 
测 进行 选 入 和 排除 。 

(1) 剔除 (丢弃 ) 变 量 。 

剔除 变量 的 原因 很 多 。 举 例 来 说 ,如 果 某 个 变量 中 有 若干 缺失 值 ,你 可 能 想 在 进一步 分 
析 之 前 将 其 丢弃 。 

可 以 使 用 语句 剔除 变量 q3 和 q4。 

>myvars<— names (leadership)® ings c("gq3","q4") 

>newdata< - leadership[ ! myvars] 

(2) 选 入 观测 。 

选 人 或 剔除 观测 ( 行 ) 通 常 是 成 功 的 数据 准备 和 数据 分 析 的 一 个 关键 方面 。 

>newdata< - leadership[ 1:3,] 

>newdata< - leadership[ which (leadership$ gender=="M"&leadership$ age> 30),] 

>attach (leadership) 

>newdata< - leadership[ which (gender== 'M'&age> 30) ,] 

>datach (leadership) 

在 以 上 每 个 示例 中 ,只 提供 了 行 下 标 ,而 将 列 下 标 留 空 ( 故 选 入 了 所 有 列 )。 在 第 一 个 示 
例 中 ,选择 了 第 一 行 到 第 三 行 (前 三 个 观测 )。 在 第 二 个 示例 中 ,选择 了 所 有 30 岁 以 上 的 男 
性 。 第 三 个 示例 使 用 了 attach() 函数 ,所 以 不 必 在 变量 名 前 加 上 数据 框 名 称 。 

(3) subset 函数 。 

使 用 subset 函数 大 概 是 选择 变量 和 观测 最 简单 的 方法 了 。 两 个 示例 如 下 : 





>newdata< - subset (leadership,age>=35|age< 24, select=c (ql,gq2,9q3,94)) 
>newdata< - subset (leadership,gender== "M"&age> 25, select= gender:q4) 


在 第 一 个 示例 中 ,选择 了 所 有 age 值 大 于 或 等 于 35 或 age 值 小 于 24 的 行 ,保留 了 变量 


ql~q4。 


在 第 二 个 示例 中 ,选择 了 所 有 25 岁 以 上 的 男性 ,并 保留 了 变量 gender 到 q4(gender、q4 


和 其 间 所 有 列 ) 。 
(4) 随机 抽样 。 


sample 函数 从 数据 集中 (有 放 回 或 无 放 回 地 ) 抽 取 大 小 为 n 的 一 个 随机 样本 。 
可 以 使 用 以 下 语句 从 leadership 数据 集中 随机 抽取 一 个 大 小 为 3 的 样本 。 


>mysample< - leadership[ sample (1:nrow (leadership), 3, replace= FALSE),] 









































4.2.2 RR 常用 函数 
1. 数学 函数 
R 常用 的 数学 函数 见 表 4-4。 
表 4-4 常用 数学 函数 
函数 功 能 | 
元 素 求 和 TD 
prod 元 素 求 连 乘积 
which. min(max) 最 小 (大 ) 元 素 的 下 标 
range 与 c(min(x) 和 max(x)) 作 用 相同 
mean 均值 
median 中 位 数 
Var 方差 
rev 元 素 取 逆 序 
Sort 元 素 按 升 序 排列 
cumsum 累积 和 
cumprod 累积 积 
cummax(cummax) 累积 最 大 值 (最 小 值 ) 
举例 如 下 : 
>x<-4:1 
> sum(x) # 对 zx 中 的 元 素 求 和 
[10 
>prod (2:8) #8 的 阶乘 
[21] 40320 
>which.max (x) # 返 回 x 中 最 大 元 素 的 下 标 
[4 
[J 4321 
>which.min (x) 


[4 
>which.max (x) 


>range (x) # 与 cmin (x) 和 max(x)) 作 用 相同 
Seat #x 中 元 素 的 均值 
3 二 中 元 素 的 中 位 数 


>var (x) #xx 中 元 素 的 方差 (用 n-1 做 分 母 ) 
[1] 1.666667 

>x 
[J 4321 

>rev(x) # 对 x 中 的 元 素 取 逆 序 
[J1234 

> sort (x) # 将 x 中 的 元 素 按 升序 排列 
[J 1234 

>x 
有 

> cumsum (x) # 求 累积 和 ,返回 一 个 向 量 , 它 的 第 谋 个 元 素 是 从 x[1J 到 x[i] 的 和 
1]J4 7 910 

> cumprod (x) # 求 累积 (从 左 向 右 ) 乘 积 

本 1 2 624 

> cummin (x) # 求 累积 最 小 值 (从 左 向 右 ) 

[T1131 

> cummax (x) # 求 累积 最 大 值 (从 左 向 右 ) 

[1]J]1234 








2. 统计 函数 

R 语言 中 提供 了 四 类 有 关 统 计 分 布 的 函数 (密度 函数 、 累 计 分 布 函 数 、 分 位 函数 和 随机 
数 函 数 ) ,分 别 在 代表 该 分 布 的 R 函 数 前 加 上 相应 前 缘 获 得 (dp.q 或 D)。 

正 态 分 布 的 函数 是 norm, 命 令 dnorm(0) 就 可 以 获得 正 态 分 布 的 密度 函数 在 0 处 的 值 
0.3989( 默 认为 标准 正 态 分 布 )。 

同 理 ,pnorm(0) 是 0.5, 就 是 正 态 分 布 的 累计 密度 函数 在 0 处 的 值 。 

qnorm(0.5) 得 到 的 是 0, 即 标准 正 态 分 布 在 0.5 处 的 分 位 数 是 0( 比 较 常 用 的 qnorm 
(0.975) 就 是 估计 中 经 常用 到 的 1. 96)。 

最 后 一 个 rnorm(n) 则 是 按 正 态 分布 随 机 产生 n 个 数据 。 

上 面 正 态 分 布 的 参数 平均 值 和 方差 都 是 默认 的 0 和 1, 可 以 通过 在 函数 里 显示 指定 这 
些 参数 对 其 进行 更 改 。 如 dnorm(0,1,2) 则 得 出 的 是 均值 为 1 ,标准 差 为 2 的 正 态 分 布 在 0 
处 的 概率 值 。 要 注意 的 是 () 内 的 顺序 不 能 颠倒 。 

3. 概率 函数 

在 R 中 ,概率 函数 : 概率 密度 density(d)、 概 率 分 布 probability(p)、 百 分 位 数 quantile 
(q) 及 随机 数 模拟 random(r)。 其 中 第 一 个 字母 表示 其 所 指 分 布 的 某 一 方面 。 

d 二 密度 函数 (density) 

p 一 分 布 函数 (distribution function) 

q 二 分 位 数 函 数 (quantile function) 

r 二 生成 随机 数 (随机 偏差 ) 

常用 的 概率 函数 如 表 4-5 所 示 ,示例 如 下 ,其 结果 如 图 4-4 所 示 。 


第 4 章 
ee 




























































































表 4-5 概率 函数 分 布 
分 布 名 称 缩 写 分 布 名 称 缩 写 
Beta 分 布 beta Logistic 分 布 logis 
二 项 分 布 binom 多 项 分 布 multinom 
柯 西 分 布 cauchy 负 二 项 分 布 nbinom 
( 非 中 心 ) 卡 方 分 布 chisq 正 态 分 布 norm 
指数 分 布 exp 泊 松 分 布 pois 
F 分 布 四 Wilcoxon 符号 秩 分 布 signrank 
Gamma 分 布 gamma t 分 布 t 
几何 分 布 geom 均匀 分 布 unif 
超 几 何 分 布 hyper Weibull 分 布 weibull 
对 数 正 态 分 布 lnorm Wilcoxon 秩 和 分 布 wilcox 
>Plot (x,y, type= "1",xlab= "NormalDeviate", ylab= "Density", yaxs= "i") 
>x<-pretty(c(-3,3),30) 
>y<- dnorm(x) 
>Plot (x,y, type= "1",xlab= "NormalDeviate", ylab= "Density", yaxs= "i") 
0.3 上 
号 0.2 
名 
0.1 
1 1 1 1 1 1 
Er] = =] 0 1 2 3 
NormalDeviate 
图 4-4 正 态 分 布 
4. 数组 与 矩阵 相关 函数 
R 的 数组 与 矩阵 相关 函数 见 表 4-6。 
表 4-6 ”数组 与 矩阵 相关 函数 
函数 功 能 
array 建立 数组 
matrix 生成 矩阵 
data. matrix 把 数据 框 转换 为 数值 型 矩阵 
lower. tri 矩阵 的 下 三 角 部 分 
mat. or. vec 生成 矩阵 或 向 量 
t 矩阵 转 置 
cbind 把 列 合 并 为 矩阵 
rbind 把 行 合并 为 矩阵 
diag 矩阵 对 角 元 素 向 量 或 生成 对 角 和 矩阵 
aperm 数组 转 置 
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函数 功 能 
nrow, ncol 计算 数组 的 行 数 和 列 数 
dim 对 象 的 维 向 量 
dimnames 对 象 的 维 名 
row/colnames 行 名 或 列 名 
apply 对 数组 的 某 些 维 应 用 函数 
tapply 对 “不 规则 ”数组 应 用 函数 
sweep 计算 数组 的 概括 统计 量 
aggregate 计算 数据 子 集 的 概括 统计 量 
Scale 矩阵 标准 化 
matplot 对 和 矩阵 各 列 绘图 
cor 相关 阵 或 协 差 阵 
Contrast 对 照 矩阵 

1) 假定 有 数据 


>a<-array(1:18，dim=c(3,2,3)) 
>a 
二 


[,J[,2] 
Lyd 1 4 
Lol 六 :六 
[3,] » 6 


[,1 [,2] 
[i 国生 上 全 和 
[2 越 : 天 
[3,] 15 18 


2) 合成 矩阵 
>b< -rbind(a[1,,],a[2,,],aL3,,]) 
3) 查看 结果 


>b 
Eb 
[1,] A 
Lza 4 10 16 
[3 2 8 14 





[4,] 和 
[5,] 3 多 5 
[6,] 6 12 18 


4) 使 用 更 多 数据 测试 


>a<-array(1:24，dim=c(3,2,4)) 
>a 
rl 


[ 洒 [ 治 
[i 加 和 
[和 和， 海 
[3] 3 6 


+3 

[EI 
[1,] 13 16 
Ls 3 
[3,] 15 18 
计 

[We | 
[yy WW 受 
Ls 地 各 
[3,] 21 24 


>b< -rbind(a[1,,],a[2,,],al3,,]) 


>b 

[1 [2 [0,3 [,4] 
全 下 ”让 和 
Lx] 4 10 16 22 
下 南国 
[4,] 1 3 
[5,] 3 9 15 21 
[6,] 看 这 8 24 


43 R 语 言 可 视 化 绘图 


可 视 化 绘图 是 R 又 一 个 强大 和 灵活 的 功能 ,利用 这 一 功能 可 以 更 加 方便 地 展示 数据 处 
理 和 分 析 的 效果 。 


4.3.1 


R 绘图 参数 设置 
R 绘图 需要 设置 参数 , 见 表 4-7。 


表 4-7 R 参数 设置 



















































































参 数 作 用 描 述 
pch 点 的 符号 | 指定 绘制 点 时 使 用 的 符号 
指定 符号 的 大 小 。cex 是 一 个 数值 ,表示 绘图 符号 相对 于 默认 大 小 的 缩放 倍 
cex 符号 的 大 小 | 数 。 默 认 大 小 为 1,1. 5 表示 放大 为 默认 值 的 1. 5 倍 ,0. 5 表示 缩小 为 默认 值 的 
50% ,等 等 
lty 线条 类 型 ”| 指定 绘制 线条 时 使 用 的 符号 
线条 宽度 指定 线条 宽度 。lwd 是 以 默认 值 的 相对 大 小 来 表示 (默认 值 为 1) 。 例 如 ,lwd 一 2 
将 生成 一 条 两 倍 于 默认 宽度 的 线条 
默认 的 绘图 颜色 。 某 些 函 数 (如 lines 和 pie) 可 以 接受 一 个 含有 颜色 值 的 向 量 
a 并 自动 循环 使 用 。 
例如 ,如 果 设 定 col=c("red"，"blue") 并 需要 绘制 三 条 线 , 则 第 一 条 线 将 为 红 
色 , 第 二 条 线 为 蓝 色 ,第 三 条 线 又 将 为 红色 
col. axis 坐标 轴 刻 度 文字 的 颜色 
col lab | 绘 四 需 色 | 坐标 负 标 签 (名 称 ) 的 颜色 
col. main | 标题 颜色 
col. sub 副标题 颜色 
fg 图 形 的 前 景色 
bg 图 形 的 背景 色 
表示 相对 于 默认 大 小 缩放 倍数 的 数值 。 
cex 默认 大 小 为 1,1. 5 表示 放大 为 默认 值 的 1. 5 倍 ,0. 5 表示 缩小 为 默认 值 的 
50% ,等 等 
cex. axis “| 缩放 倍数 坐标 轴 刻 度 文字 的 缩放 倍数 。 类 似 于 cex 
cex. lab 坐标 轴 标 签 (名 称 ) 的 缩放 倍数 。 类 似 于 cex 
cex. main 标题 的 缩放 倍数 。 类 似 于 cex 
cex. sub 副标题 的 缩放 倍数 。 类 似 于 cex 
koa 整数 。 用 于 指定 绘图 使 用 的 字体 样式 。1 一 常规 ,2 一 粗 体 ,3 一 斜体 ,4 一 粗 斜 
体 ,5= 符 号 字体 (以 Adobe 符号 编码 表示 ) 
font. axis 坐标 轴 刻 度 文字 的 字体 样式 
font lab | 字体 特 式 | 至 标 畏 标 签 (名称 ) 的 字体 样式 
font. main 标题 的 字体 样式 
font. sub 副标题 的 字体 样式 
ps 文字 大 小 | 字体 磅 值 (1 磅 约 为 1/72 英寸 )。 文本 的 最 终 大 小 为 ps * cex 
绘制 文本 时 使 用 的 字体 样式 。 标准 的 取 值 为 serif( 衬 线 ) sans( 无 衬 线 ) 和 
family 文字 样式 
mono( 等 宽 ) 
pin 图 形 尺寸 | 以 英寸 表示 的 图 形 尺寸 ( 宽 和 高 ) 
mai 以 数值 向 量 表示 的 边界 大 小 ,顺序 为 下 、 左 、 上 、 右 ,单位 为 英寸 
边界 尺寸 | 以 数值 向 量 表示 的 边界 大 小 ,顺序 为 下 、 左 、 上 、 右 ,单位 为 英 分 * 。 默 认 值 为 
(5, 4, 4, 2) 十 0.1 














4.3.2 常用 图 形 的 绘制 


1. 条 形 图 

条 形 图 通过 垂直 或 水 平 的 条 形 展示 类 别 型 变量 的 分 布 (频数 )。 郴 数 barplot() 的 最 简 
单 用 法 是 barplot(height) ,其 中 的 height 是 一 个 向 量 或 一 个 矩阵 。 

1) 简单 的 条 形 图 

下 面 用 例 4-2 讲解 简单 条 形 图 的 绘制 。 

【 例 4-2〗 使 用 vcd 包 分 发 的 Arthritis 数据 集 ( 类 风湿 性 关节 炎 新 疗法 ) 进 行 图 形 的 
绘制 。 

在 关节 炎 研 究 中 ,变量 Improve 记录 了 每 位 接受 安慰 剂 或 其 他 药物 治疗 的 病人 的 治疗 
结果 。 

> library (ved) 

>counts<- table (Arthritis$ Improved) 

>counts 


None Some Marked 
42 14 28 


结果 表明 ,28 位 病人 有 明显 改善 ,14 位 部 分 改善 ,42 人 没有 改善 ,如 图 4-5 所 示 。 


>barplot (counts,main= "Simple Bar Flot",xlab= "Improvement", ylab= "Frequency")# 竖 直 条 形 
>barplot (counts,main= "Horizontal Bar Flot", xlab="Frequency", ylab="Improvement", horiz= 
TROE)# 水 平 条 形 图 








Simple Bar Flot Horizontal Bar Flot 
40| 
30 
3 20 
Ei 
None Some 
Improvement 
(a) 竖 直 条 形 图 (b) 水 平 条 形 图 
图 4-5 简单 条 形 图 


2) 堆砌 条 形 图 和 分 组 条 形 图 

车 beside=FALSE( 默 认 值 ), 则 和 矩阵 中 的 每 一 列 都 将 生成 图 中 的 一 个 条 形 , 各 列 中 的 
值 将 给 出 堆砌 “ 子 条 ”的 高 度 。 

车 beside=TRUE, 则 和 矩阵 中 的 每 一 列 都 表示 一 个 分 组 ,各 列 中 的 值 将 并 列 而 不 是 堆 
砌 ,如 图 4-6 所 示 。 

考虑 治疗 类 型 和 改善 情况 的 列 联 表 。 


>1library (vcd) 
>counts<—table(Arthritis$ Improved,Arthritis$ Treatment) 
counts 

Placebo Treated 





None 29 13 
Some 韶 bd 
Marked 党 21 
>barplot (counts,main= "Stacked Bar Plot", xlab= "Treatment", ylab= "Frequency", 
col=c("red", "yellow", "green"), legend= rownames (counts)) # 堆 砌 条 形 图 
>barplot (counts,main= "Grouped Bar Plot", xlab= "Treatment", ylab= "Frequency", 
col=c ("red", "yellow", "green") , legend-— rownames (counts) ,beside= TRUE)# 分 组 条 形 图 





Stacked Bar Plot Grouped Bar Plot 
40 
3 30 
5 20 
吕 10 
0 0 
Placebo Treated Placebo 
Treatment Treatment 
(a) 堆砌 条 形 图 (b) 分 组 条 形 图 
图 4-6 ”堆砌 条 形 图 和 分 组 条 形 图 
3) 均值 条 形 图 


使 用 barplot() 函 数 来 创建 表示 均值 .中 位 数 , 标 准 差 等 的 条 形 图 。 
使 用 state. region, state. x77 数据 集 , 测 试 美国 各 地 区 平均 文盲 率 ,如 图 4-7 所 示 。 


> states< -data.frame (state.region, state.x77) 
>means< 一 aggregate (states$ Illiteracy,by=1ist (state.region),FUN=mean) 


means 
Group.1 
于 Northeast 1.000000 
2 South 1.737500 
3 North Central 0.700000 
4 West 1.023077 
means< -means[ order (means$ x),] # 将 均值 从 小 到 大 排序 
means 
Group.1 起 
3 North Central 0.700000 
省 Northeast 1.000000 
4 West 1.023077 
4 South 1.737500 
barplot (means$ x,names.arg=means$ Group.1) 
title ("Mean Illiteracy Rate" ) # 添 加 标题 
4) 棘 状 图 


束 状 图 对 堆砌 条 形 图 进行 了 重 缩放 , 坏 状 图 可 由 vcd 包 中 的 函数 spine() 绘 制 。 以 下 代 


码 可 以 生成 一 幅 简 单 的 棘 状 图 ,如 图 4-8 所 示 。 


library (ved) 
attach (Arthritis) 
counts<— table (Treatment, Improved) 


Mean Illiteracy Rate 


13 
1.0 


0.5 








0.0 


North Central Northeast West South 


图 4-7 美国 各 地 区 平均 文盲 率 排序 的 条 形 图 


spine (counts,main= "Spinogram Example") 
detach (Arthritis) 


Some 


Improved 


None 


Spinogram Example 


Placebo Treated 
Treatment 


图 4-8 球 状 图 


治疗 组 同安 慰 剂 组 相 比 ,获得 显著 改善 的 患者 比例 明显 更 高 。 
2. 饼 图 
饼 图 可 由 函数 pie(x,labels) 创 建 。 其 中 ,x 是 一 个 非 负 数值 向 量 ,表示 每 个 扇形 的 面 
积 ; labels 表示 各 扇形 标签 的 字符 型 向 量 。 


>y=c(0.12, 0.3, 0.26, 0.16, 0.04, 0.12) 
>names (y)=c(" 蓝 菌 ", "楼 桃 ", "苹果 ", "波士顿 夹心 饼 ", "其 他 ", "香草 奶油 ") 
>pie(y) # 默 认 颜色 ( 见 图 4- 9(a)) 
>piel(y, col = c("purple", "violetredl", "green3", "cornsilk", "cyan", "white"))# 设 置 成 需要 
的 颜色 ( 见 图 4- 9(b)) 
>pie(y, col =gray(seq(0.4, 1.0, length = 6)))# 黑 白色 , 灰 度 有 区 别 ( 见 图 4- 9(c)) 


苹果 


樱桃 樱桃 
蓝 侮 蓝莓 
香草 奶油 ”苹果 香草 奶油 ”苹果 
其 他 其 他 
波士顿 夹心 饼 波士顿 夹心 饼 


(a) 






(b) 
4-9 饼 图 








樱桃 





蓝 侮 


香草 奶油 


其 他 
波士顿 夹心 饼 
(0°) 


3. 直方 图 

使 用 函数 hist(x) 创 建 直方 图 ,其 中 的 x 是 一 个 由 数据 值 组 成 的 数值 向 量 。 

【 例 43-3】〗 使 用 R 内 置 数据 集 mtcars, 它 是 美国 Motor Trend 收集 的 1973 一 1974 年 期 
间 总 共 32 辆 汽车 的 11 个 指标 油耗 及 10 个 与 设计 及 性 能 方面 的 指标 。 其 中 绘 出 了 每 
加 仓 行驶 英里 数 的 直方 图 ,如 图 4-10 所 示 。 


>hist (mtcars$ mpg) # 简 单 直方 图 





Histogram of mtcars$mpg 





三 











Frequency 














oAam 














a 
10 15 20 25 30 35 
mtcars$mpg 


图 4-10 每 加 仑 行驶 英里 数 直方 图 


4. 核 密度 图 

绘制 密度 图 的 方法 (不 释 加 到 另 一 幅 图 上 方 ) 为 plot(density(x))。 其 中 ,x 是 一 个 数值 
型 向 量 。 要 向 一 幅 已 经 存在 的 图 形 上 释 加 一 条 密度 曲线 ( 见 图 4-11), 可 以 使 用 lines() 函 
数 , 代 码 给 出 了 两 幅 核 密度 图 示例 。 

绘 出 每 加 仑 行驶 英里 数 的 核 密 度 图 ,如 图 4-11 所 示 。 


>par (mfrow=c(2,1)) 

>d< -density (mtcars$ mpg) 

>plot (d) #( 见 图 411(a)) 

d<-density(mtcars$ mpg) 

plot(d,main = "Kernel Density of Miles Per Gallon") 
polygon(d,col = "red",border = "blue") 

rug (mtcars$ mpg,col = "brown") 


# 添 加 一 个 标题 ,将 曲线 修改 为 蓝 色 ,使 用 实心 红色 填充 曲线 下 方 的 区 域 ,并 添加 了 棕色 的 轴 须 图 

5. 箱 线 图 

箱 线 图 (又 称 盒 须 图 ) 通 过 绘制 连续 型 变量 的 五 数 总 括 , 即 最 小 值 ` 下 四 分 位 数 (第 25 百 
分 位 数 ) 、 中 位 数 (第 50 百 分 位 数 )、 上 四 分 位 数 (第 75 百 分 位 数 ) 以 及 最 大 值 ,描述 了 连续 型 
变量 的 分 布 。 箱 线 图 能 够 显示 出 可 能 为 离 群 点 (范围 土 1.5XIQR 以 外 的 值 ,IQR 表示 四 分 
位 距 , 即 上 四 分 位 数 与 下 四 分 位 数 的 差 值 ) 的 观测 。 例 如 : 


boxplot (mtcars$ mpg,main= "Box plot", ylab= "Miles per Gallon") 


为 了 图 解 各 个 组 成 部 分 ,我 手工 添加 了 标注 ,如 图 4-12 所 示 。 
图 中 似乎 不 存在 离 群 点 ,而 且 略 微 正 偏 ( 上 侧 的 须 较 下 侧 的 须 更 长 ) 。 





density.default(x = mtcars$mpg) Kernel Density of Miles Per Gallon 























0.06 
这 0.04 
0.02 
0.00 
10 20 30 40 10 20 30 
N=32 Bandwidth=2.477 N=32 Bandwidth = 2.477 
(a) 简单 核 密度 图 (b) 复杂 核 密度 图 
图 4-11 核 密度 图 
Box plot 
ee —— Upper hinge 
1 
30| Whisker—— | 
1 
| 
§ 25r | 
§ h 一 Upper 
得 quartile 
| 20| Median—— 
Lower 
15 1 quartile 
Whisker—— | 
10 ! —— Lower hinge 
图 4-12 含 手 工 标注 的 箱 线 图 
6. 点 图 


点 图 提供 了 一 种 在 简单 水 平 刻度 上 绘制 大 量 有 标签 值 的 方法 。 可 以 使 用 dotchart() 函 
数 创建 点 图 ,格式 为 dotchart(x,labels 一 ), 其 中 的 x 是 一 个 数值 向 量 ,labels 则 是 由 每 个 点 
的 标签 组 成 的 向 量 。 你 可 以 通过 添加 参数 groups 来 选 定 一 个 因子 ,用 以 指定 x 中 元 素 的 
分 组 方式 。 如 果 这 样 做 , 则 参数 gcolor 可 以 控制 不 同 组 标签 的 颜色 ,cex 可 控制 标签 的 
大 小 。 

这 里 是 mtcars 数据 集 的 一 个 示例 , 绘 出 每 种 车 型 每 加 仑 汽油 行驶 英里 数 的 点 图 ,如 
图 4-13 所 示 。 

> dotchart (mtcars$ mpg,labels = row.names (mtcars),cex = .7, 


main= "Gas Mileage for Car Models", 
xlab= "Miles Per Gallon") 
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图 4-13 每 种 车 型 每 加 仑 汽油 行驶 英里 数 的 点 图 














44 R 语 言 数 据 分 析 


本 小 节 讲述 R 的 基础 数据 处 理 函 数 和 多 元 统计 分 析 函 数 的 应 用 。 


4.4.1 数据 处 理 基 础 函数 


1. 描述 性 统计 分 析 

描述 性 统计 是 将 研究 中 所 得 的 数据 加 以 整理 、 归 类 、 简 化 或 绘制 成 图 表 , 以 此 描述 和 归 
纳 数 据 的 特征 及 变量 之 间 关 系 的 一 种 最 基本 的 统计 方法 。 

【 例 4-4】 使 用 Motor Trend 杂志 的 车 辆 路 试 (mtcars) 数 据 集 。 我 们 关注 的 是 每 加 仓 
汽油 行驶 英里 数 (mpg) 马力 (hp) 和 车 重 (wt) 。 

提取 mtcars 数据 集中 的 每 加 仑 汽油 行驶 英里 数 (mpg) 马力 (hp) 和 车 重 (wtb) 。 


>vars<-c(mmpgm "hp", "wt") 
>head (mtcars[ vars]) 

mg hp ww 
Mazda RX4 21.0 110 2.620 
Mazda RX4 Wag 21.0 110 2.875 





Datsun 710 22.8 93 2.320 


Hornet 4 Drive 21.4 110 3.215 
Hornet Sportabout 18.7 175 3.440 
Valiant 18.1 105 3.460 


变速 箱 类 型 是 一 个 以 0 表示 自动 挡 ,1 表示 手动 挡 来 编码 的 二 分 变量 ,而 气缸 数 可 为 4、 


5 或 6。 


1) 通过 summary() 计 算 描 述 性 统计 量 
> summary (mtcars[vars]) 
mg hp wt 

Min. :10.40 Min. :52.0 Min. :1.513 
1st Qu.:15.43 lst Qu.: 96.5 1st Qu.:2.581 
Median :19.20 Median :123.0 Median :3.325 
Mean :20.09 Mean :146.7 Mean :3.217 
3rd Qu.:22.80 3rd Qu.:180.0 3rd Qu.:3.610 
Max. :33.90 Max. :335.0 Max. :5.424 


summary() 函 数 提供 了 最 小 值 .最 大 值 四 分 位 数 和 数值 型 变量 的 均值 ,以 及 因子 向 量 


和 由 辑 型 向 量 的 频数 统计 。 


2) 通过 sapply 〇 计算 描述 性 统计 量 


>mystats<- function (x,na.omit= FALSE) { 
if (na.omit) 
x<-x[! is.na(x)] 
Im< 一 mean (x) 
n< 一 Length (x) 
3<-sd(x) 
Skew< - sum( (x-m)^3/s^3) /n 
kurt<- sum( (x-m)^4/s^4) /n-3 
return(c (n=n,mean=m, stdev= s, skew= skew, kurtosis= kurt)) 
} 
> sapply (mtcars[ vars],mystats) 


mpg hp wt 
n 32.000000 ”32.0000000 32.00000000 
mean 20.090625 146.6875000 3.21725000 
stdev 6.026948 68.5628685 0.97845744 
skew 0.610655 0.7260237 0.42314646 


kurtosis -0.372766 -0.1355511 -0.02271075 


对 于 样本 中 的 车 型 ,每 加 仑 汽油 行驶 英里 数 的 平均 值 为 20. 1 ,标准 差 为 6.0。 分 布 呈 现 


右 偏 ( 偏 度 十 0. 61) ,并 且 较 正 态 分 布 稍 平 ( 峰 度 一 0. 37) 。 请 注意 ,如 果 只 希望 单纯 地 忽略 缺 
失 值 ,那么 应 当 使 用 sapply(Cmtcars[vars]， mystats,na. omit 王 TRUE) 。 


3) 通过 pastecs 包 中 的 stat. desc() 函 数 计算 描述 性 统计 量 


> library (pastecs) 
> stat.desc (mtcars[vars]) 

mpg hp wt 
nbr.val 32.0000000 32.0000000 32.0000000 
nbr.null 0.0000000 0.0000000 0.0000000 





nbr.na 0.0000000 0.0000000 0.0000000 


min 10.4000000 52.0000000 1.5130000 
max 33.9000000 335.0000000 5.4240000 
range 23.5000000 283.0000000 3.9110000 
sum 642.9000000 4694.0000000 102.9520000 
median 19.2000000 123.0000000 3.3250000 
mean 20.0906250 146.6875000 3.2172500 
SE.mean 1.0654240 12.1203173 0.1729685 
CI.mean.0.95 2.1729465 24.7195501 0.3527715 
Var 36.3241028 4700.8669355 0.9573790 
std.dev 6.0269481 68.5628685 0.9784574 
Coef.var 0.2999881 0.4674077 0.3041285 
4) 通过 psych 包 中 的 describe() 计 算 描述 性 统计 量 
> library (psych) 
>describe (mtcars[vars] ) 
vars n mean sd median trimmed mad min mx range Sskew 
mpg 1 32 20.09 6.03 19.20 19.70 5.41 10.40 33.90 23.50 0.61 
hp 2 32 146.69 68.56 123.00 141.19 77.10 52.00 335.00 283.00 0.73 
we 3 32 3.22 0.98 3.33 3.15 0.77 1.51 5.42 3.91 0.42 


kurtosis se 
mpg -0.37 1.07 
hp -0.14 12.12 
wt -0.02 0.17 


5) 使 用 aggregate() 分 组 获取 描述 性 统计 量 


> aggregate (mtcars[vars],by= list (am=mtcars$ am) ,mean) 
am mpg hp wt 

1 017.14737 160.2632 3.768895 

2 124.39231 126.8462 2.411000 

>aggregate (mtcars[vars],by=1ist (am=mtcars$ am) ,sd) 


am mpg hp wt 
1 0 3.833966 53.90820 0.7774001 
2 1 6.166504 84.06232 0.6169816 


6) 使 用 by() 分 组 计算 描述 性 统计 量 
如 果 有 多 个 分 组 变量 ,可 以 使 用 语句 by 一 list(namel = groupvarl ，name2 一 groupvar2，…， 


groupvarN ) 。 


>dstats< - function (x) (c (mean=mean (x) ,sd= sd(x))) 
>by (mtcars[vars] ,mtcars$ am,plyr::colwise (dstats)) 
mtcars$ am: 0 


mpg hp wt 
1 17.147368 160.2632 3.7688947 
2 3.833966 53.9082 0.7774001 


mpg hp wt 
到 24.392308 126.84615 2.4110000 
2 6.166504 84.06232 0.6169816 


7) 使 用 doBy 包 中 的 summaryBy() 分 组 计算 概述 统计 量 


>maryBy (mpg+ hp+ wt~ am,data=mtcars, FUN=mystats) 


ammpg.n mpg-mean mpg.stdev mpg.skew mpg.kurtosis 


hp.n hp.mean hp.stdev 


1 0 1917.14737 3.833966 0.01395038 -0.8031783 19 160.2632 53.90820 

2 1 1324.39231 6.166504 0.05256118 -1.4553520 13 126.8462 84.06232 
hp.skew hp.kurtosis wt.n wt.mean wt.stdev wt.skew wt.kurtosis 

1 -0.01422519 -1.2096973 19 3.768895 0.7774001 0.9759294 0.1415676 

2 1.35988586 0.5634635 132.411000 0.6169816 0.2103128 -1.1737358 


8) 使 用 psych 包 中 的 describe. by() 分 组 计算 概述 统计 量 
psych 包 中 的 describe. by() 函 数 可 计算 和 describe 相同 的 描述 性 统计 量 , 只 是 按照 一 


个 或 多 个 分 组 变量 分 层 , 代 码 如 下 : 


> library (psych) 
>describe.by (mtcars[vars],mtcars$ am) 


$.'0' 
vars n mean sdmedian trimmed mad min max range skew 
mg 1 19 17.15 3.83 17.30 17.12 3.11 10.40 24.40 14.00 0.01 
hp 2 19 160.26 53.91 175.00 161.06 77.10 62.00 245.00 183.00 -0.01 
we 3 19 3.77 0.78 3.52 3.75 0.45 2.46 5.42 2.96 0.98 
kurtosis se 
mpg -0.80 0.88 
hp -1.21 12.37 
wt 0.14 0.18 
于 
vars n mean sdmedian trimed mad min mx range skew 
mpg 113 24.39 6.17 22.80 24.38 6.67 15.00 33.90 18.90 0.05 


hp 2 13 126.85 84.06 109.00 114.73 63.75 52.00 335.00 283.00 1.36 
wt 313 2.41 0.62 2.32 2.39 0.68 i151 .3-57 2.06 0.21 


kurtosis se 
mpg -1.46 1.71 
hp 0.56 23.31 
wt -1.17 0.17 


describe. by() 函数 不 允许 指定 任意 函数 ,所 以 它 的 普 适 性 较 低 。 若 存在 一 个 以 上 的 分 


组 变量 ,可 以 使 用 list(groupvarl，groupvar2，…，groupvarN) 来 表示 它们 ,但 这 仅 在 分 组 
变量 交叉 后 不 出 现 空白 单元 时 有 效 。 可 以 使 用 reshape 包 灵 活 地 按 组 导出 描述 性 统计 量 。 








首先 ,使 用 dftm 一 -melt(dataframe, measure. vars 一 y,id. vars 一 g) 融 合 数据 框 。 其 中 ， 








dataframe 包含 数据 ; y 是 一 个 向 量 ,指明 了 要 进行 概述 的 数值 型 变量 (默认 使 用 所 有 变 
量 ); g 是 由 一 个 或 多 个 分 组 变量 组 成 的 向 量 。 然 后 使 用 





里 。 


cast (dfm, groupvarl+ groupvar2+ ..+ variable~ .,FUN) 


塑 数据 。 


9) 通过 reshape 包 分 组 计算 概述 统计 量 
将 运用 数据 重 塑 的 方法 来 取得 由 变速 箱 类 型 与 气缸 数 形成 的 每 个 亚 组 的 描述 性 统计 
我 们 要 获取 的 描述 性 统计 量 是 样本 大 小 、 平 均 数 和 标准 差 。 





> library(reshape) 
> dstats< - function (x) (c (n= length (x) ,mean=mean (zx) , sd= sd (x) ) ) 
>dfm< -melt (mtcars,measure.vars=c ("mpg", "hp", "wt") ,id.vars=c ("am", "cy]1")) 
> cast (dfm, amt cyl+ variable~ .,dstats) 

am cyl variable n mean sd 


bE mpg 3 22.900000 1.4525839 
2 但 二 hp 3 84.666667 19.6553640 
3 0 4 wt 3 2.935000 0.4075230 
4 0 6 mpg 4 19.125000 1.6317169 
5 0 6 hp 4115.250000 9.1787799 
6 0 6 wt 4 3.388750 0.1162164 
半 、 般 . 漠 mpg 12 15.050000 2.7743959 
8 0 8 hp 12 194.166667 33.3598379 

9 0 8 wt12 4.104083 0.7683069 
10 1 4 mg 8 28.075000 4.4838599 
了 主 hp 8 81.875000 22.6554156 
12 1 4 wt 8 2.042250 0.4093485 
EE mg 3 20.566667 0.7505553 
14 1 6 hp 3131.666667 37.5277675 
15 1 6 wt 3 2.755000 0.1281601 
16 1 8 mpg 2 15.400000 0.5656854 
3 hp 2 299.500000 50.2045815 
18 1 8 wt 2 3.370000 0.2828427 


2. 描述 统计 函数 
R 语言 中 常用 的 描述 统计 函数 见 表 4-8。 





表 4-8 描述 统计 函数 

































































统计 函数 作 用 
Max 返回 数据 的 最 大 值 
Min 返回 数据 的 最 小 值 
Which. max 返回 最 大 值 的 下 标 
Which. min 返回 最 小 值 的 下 标 
Mean 均值 
Median 中 位 数 
Mad 离 差 
Var 方差 
Sd 标准 差 
Range 返回 (最 大 值 或 最 小 值 ? 
Quantile 分 位 数 
Summary 返回 五 数 概括 和 均值 
Finenum 五 数 概 括 
Sort 排序 
Order 排序 
Sum 求 和 
Length 求 数 据 个 数 
Emm Actuar 包 中 求 k 阶 原点 和 矩 
skewness Fbasics 包 中 求 偏 度 
kurtosis Fbasics 包 中 求 峰 度 








4.4.2 多 元 统计 分 析 


1. 方差 分 析 

1) 单 因素 方差 分 析 

【 例 4-5】 以 multcomp 包 中 cholesterol 为 例 。 其 中 ,response 为 响应 变量 ,trt 为 预测 
变量 ,这 个 处 理 中 有 五 种 水 平 。 从 下 面 的 箱 形 图 ( 见 图 4-14) 中 可 观察 到 人 处理 的 不 同 水 平 对 
响应 变量 的 影响 。 

观测 五 种 降低 胆固醇 药物 疗法 均值 的 不 同 。 


> library (multcomp) 

>attach (cholesterol) 

>table (trt) ## 各 组 样本 的 大 小 

EE 

ltime 2times 4times drugD drugE 

10 10 10 10 10 

>aggregate (response,by= list (trt), FUN=mean) ### 各 组 均值 
Group.1 车 

1 ltime 5.78197 

2 2times 9.22497 

3 4times 12.37478 

4 drugD 15.36117 | 

5 drugE 20.94752 

>aggregate (response,by= list (trt), FUN= sd) ## 各 组 标准 差 
Group.1 L; 

1 ltime 2.878113 

2 2times 3.483054 

3 4times 2.923119 

4 drugD 3.454636 

5 drugE 3.345003 

>fit<-aov(response~ trt) 


> summary (fit) ## 检 验 组 间 差异 (ANOVA) 
Df Sum Sq Mean Sq F value Pr(>F) 
trt 41351.4 337.8 32.43 9.82e-—13 *** 


Residuals 45 468.8 10.4 


Signif. codes: 0'xxx*'0.001 'x*'0.01 '*'0.05'.'0.1''1 


>1library (gplots) 

>plotmeans (response~ trt,xlab = "TreaTment",ylab = "Response", 

+ main= "Mean Plot\nwith 95% CT") ## 绘 制 各 组 均值 及 其 置信 区 间 的 图 形 

> detach (cholesterol) 

结果 可 以 看 出 ,drugE 这 种 药物 对 降低 胆固醇 最 有 效 。 

2) 双 因 素 方差 分 析 

【 例 4-6】〗 以 ToothGrowth 为 例 ,VC 剂量 和 摄 入 方式 对 豚鼠 牙齿 的 影响 。 其 中 ,supp 
和 dose 是 预测 变量 ,len 是 响应 变量 。 


上 面 讲 的 方差 分 析 只 有 一 个 因素 ,这 里 有 两 个 因素 。 
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图 4-14 五 种 降低 胆固醇 药物 疗法 的 均值 , 含 95%% 的 置信 区 间 


> attach (ToothGrowth) 


>head (ToothGrowth) 


len supp dose 


1 2 
211.:5 
3 Ta 
4 5.8 
5 6.4 
610.0 


>table (supp, ToothGrowth$ dose) 


S88888 


0.5 
0.5 
0.5 
0.5 
0.5 
0.5 


Supp 0.5 12 
o 10 10 10 
ve 101010 

>aggregate (len, by= list (supp, ToothGrowth$ dose) ,FUN=mean)# 分 组 查看 


ao wm 


5838838 


0.5 
0.5 
10, 
1.0 
2.0 
2.0 


Group.1 Group.2 x 


13.23 
7.98 
22.70 
16.77 
26.06 
26.14 


>aggregate (len, by= 1ist (supp, ToothGrowth$ dose) ,FUN= sd)# 分 组 查看 
Group.1 Group.2 


oa wR PP 


>fit<-aov(len~ supp* ToothGrowth$ dose) 


383838 


0.5 
0.5 
1.0 
1.0 
2.0 
2.0 


> summary (fit) 


至 
4.459709 
2.746634 
3.910953 
2.515309 
2.655058 
4.797731 


DE Sum Sq Mean SqF value Pr(>F) 


supp 1 205.4 205.4 12.317 0.000894 *** 
ToothGrowth$ dose 1 2224.3 2224.3 133.415 <2e-16**# 
supp:ToothGrowth$ dose 1 88.9 88.9 5.333 0.024631 * 
Residuals 56 933.6 16.7 


Signif. codes: 0 '*** "0.001 '** "0.01 '* ' 0.05'.' 0.1' "1>detach (ToothGrowth) 


由 最 后 的 方差 分 析 可 知 , 摄 入 方式 和 VC 剂量 两 个 变量 单独 对 结果 的 影响 很 大 ,而 两 者 
在 一 起 时 对 结果 的 影响 相对 较 小 。 

2. 判别 分 析 

按照 一 定 的 判别 准则 ,建立 一 个 或 多 个 判别 函数 ,用 研究 对 象 的 大 量 资料 确定 判别 函数 
中 的 待定 系数 ,并 计算 判别 指标 。 据 此 即 可 确定 某 一 样本 属于 何 类 。 得 到 一 个 新 的 样品 数 
据 , 要 确定 该 样品 属于 已 知 类 型 中 哪 一 类 ,这 类 问题 属于 判别 分 析 问 题 。 

下 面 介绍 三 大 类 主流 判别 分 析 算 法 。 

1) 费 希 尔 判 别 

判别 思想 是 投影 降 维 ,将 高 维 空间 的 点 向 低 维 空间 投影 ,使 多 维 问题 简化 为 一 维 问题 来 
处 理 。 选 择 一 个 适当 的 投影 轴 , 使 所 有 的 样品 点 都 投影 到 这 个 轴 上 得 到 一 个 投影 值 。 对 这 
个 投影 轴 的 方向 的 要 求 是 : 使 每 一 组 内 的 投影 值 所 形成 的 组 内 离 差 尽 可 能 小 ,而 不 同 组 间 
的 投影 值 所 形成 的 类 间 离 差 尽 可 能 大 。 线 性 判别 分 析 又 叫 费 希 尔 线性 判别 ,主要 用 的 是 
MASS 包 里 的 lda 函数 。 

2) 贝 叶 斯 (Bayes) 判 别 

贝 叶 斯 判别 是 假定 对 研究 对 象 已 有 一 定 的 认识 ,这 种 认识 常用 先 验 概 率 来 描述 。 当 取 
得 样本 后 ,就 可 以 用 样本 来 修正 已 经 有 的 先 验 概率 分 布 , 得 出 后 验 概率 分 布 , 然 后 通过 后 验 
概率 分 布 进行 各 种 统计 推断 。 实 际 上 就 是 使 平均 误 判 损失 ( 误 判 概率 与 误 判 损失 的 结合 ) 
ECM 达到 极 小 的 过 程 。 

3) 距离 判别 

根据 待 判定 样本 与 已 知 类 别 样 本 之 间 的 距离 远近 作出 判别 。 

当 分 类 只 有 两 种 且 总 体 服 从 多 元 正 态 分 布 条 件 时 ,Bayes 判别 与 Fisher 判别 .距离 判别 
是 等 价 的 。 

实现 判别 分 析 使 用 的 包 与 函数 见 表 4-9 。 


表 4-9 判别 分 析 的 程序 包 与 函数 























判别 算法 软件 包 主要 函数 
线性 判别 分 析 (LDA) lda() 
二 次 判别 分 析 (QDA) RS qda() 
朴素 贝 叶 斯 分 类 KlaR naiveBayes() 
KK 最 近邻 (KNN) class knn() 
有 权重 的 K 最 近邻 kknn kknn() 











【 例 4-7】 以 iris 高 尾 花 的 特征 作为 数据 来 源 ,利用 线性 判别 分 析 来 对 营 尾 花 进 行 


># 载 人 相关 包 和 数据 集 
> library (MASS) 
> library (sampling) 
># 把 iris 重新 赋值 ,并 加 入 分 类 标记 和 行 号 标记 
>i<-iris 
>i$ lv<-as.numeric(i$ Species) 
>i$ lv<-as.factor (i$ 1v) 
>i$ id<-c(1:150) 
># 进 行 分 层 抽样 ,每 个 类 别 随机 抽出 10 个 作为 预测 集 , 剩 下 的 作为 训练 集 
>i.s<- strata (data=i, stratanames="]v", size=c(10,10,10) ,method= "srswor", description=F) 
>i.train<-i[! (i$ ids ins i.s$ ID unit),] 
>i.predict<-i[ (i$ id% in% i.s$ ID unit),] 
># 拟 合 线性 判别 1da 
>fit<-lda(lv~ .-id- Speciesvdata=i.train) 
># 预测 训练 集 和 预测 集 
>Y< -Predict (fit,i.train) 
>YN< -predict (fit,i.predict) 
># 查 看 拟 合 情况 
>table(Y$ class,i.train$ lv)、 
关注 名 

140 0 0 

2 039 1 

3 0 139 
>table (YN$ class,i.predict$ lv) 

二 

110 0 0 

2 0 .90 

3 人工 阵 


通过 训练 集 和 测试 集 的 分 类 结果 可 以 看 出 ,150 个 数据 集 分 为 3 类 ,每 类 50 个 数据 , 拟 
合 情 况 很 好 。 

3. 聚 类 分 析 

(1) 聚 类 分 析 ( 没 监督 分 类 ) : 把 若干 个 事物 按 某 种 标准 归 为 几 个 类 别 , 相 近 或 相似 的 
归 为 一 类 。 

(2) KK 均值 : K-Means 算法 是 一 种 基于 距离 的 聚 类 算法 , 它 用 质心 到 属于 该 质心 的 点 
距离 来 实现 聚 类 ,通常 可 以 用 于 NN 维 空间 中 的 对 象 。 

(3) K- 中 心 点 聚 类 : 针对 K 均值 的 缺点 有 所 改进 , 减 小 了 极 值 的 影响 ,选取 样本 作为 中 
心 点 。K-Medoids 算法 的 核心 函数 为 pam 函数 ,来 源 于 cluster 软件 包 ,fit_pam 二 pam 
(countries[ ,—1],3)。 

(4) 系谱 聚 类 : 不 需 事先 设 定 类 别 数 ,因为 它 每 次 迭代 过 程 仅 将 距离 最 近 的 两 个 样 
本 、 徐 聚 为 一 体 ,其 运行 过 程 自然 得 到 开 王 1 至 K= 二 n(n 为 待 分 类 样本 总 数 ) 个 类 别 的 聚 类 结 
果 dist 函数 及 hclust 函数 ,fit_hc 王 hclust(dist(countries[ ,一 1])) 。 

(5) 密度 聚 类 : 弥补 了 上 述 只 是 发 现 类 似 圆 形 的 聚 类 簇 ,基于 “密度 ”来 类 聚 ,可 以 在 数 
据 库 中 发 现任 意图 形 的 位。 不 足 在 于 参数 半径 下 以 及 密度 阔 值 MinPts 取 值 的 微小 的 不 同 
都 会 产生 差别 很 大 的 结果 。dbscan 算法 的 核心 函数 为 eps 函数 .MinPts 函数 ,加 载 fpc 软 
件 包 ,dsl 二 dbscan(countries[ ,一 1],eps 王 1,Minpts 一 5) 。 





(6) 期 望 最 大 化 聚 类 (EM 算法 ) : 通过 “反复 估计 ”获取 与 数据 本 身 性 质 最 相符 的 聚 类 
方式 与 最 佳 的 类 别 数 。 期 望 最 大 化 聚 类 又 称 EM 聚 类 ,核心 函数 为 Mclust 函数 ,加 载 
mclust 软件 包 。 

【 例 4-8】 使 用 iris 数据 集 演示 K-Means 聚 类 的 过 程 , 如 图 4-15 所 示 。 


>iris2<- iris# 移 除 Species 属性 

>iris2$ Species<-NULL 

># 利 用 kmeans () 函数 进行 k-means 聚 类 ,并 将 聚 类 结果 储存 在 变量 kneans.result 中 
> (kmeans.result< -lmeans (iris2,3))# 查 看 划分 效果 

K-means clustering with 3 clusters of sizes 38, 50, 62 


Cluster means: 

Sepal.Length Sepal .Width Petal.Length Petal .Width 
时 6.850000 3.073684 5.742105 2.071053 
2 5.006000 3.428000 1.462000 0.246000 
3 5.901613 2.748387 4.393548 1.433871 


Clustering vector: 

[下 222222222222222222222222222222222222222 
[aq 27222222223333333333333333333333333332 
Lr] 333393333I3 I 
[Ci] 


Within cluster sum of squares by cluster: 
[1] 23.87947 15.15100 39.82097 
(between SS /total SS= 88.4%) 


Available components: 


[ 本 "cluster" "centers" "totss" "withinss™" "tot.withinss" 
[ 避 betweenss" "size" "iter™" "ifault" 
>table (iris$ Species,kmeans.result$ cluster) 
ke 和 
Setosa 050 0 


versicolor 2 048 

virginica 36 014 
>plot (iris2[c("Ssepal .Length", "Sepal.Width")], col = kmeans.result$ cluster) 
>points (kmeans.result$ centers[,c("Sepal.Length", "sepal.Width")], col = 1:3, 
pch= 8, cex=2) 


从 图 中 可 以 看 出 膏 尾 花 三 个 种 类 聚 类 的 效果 ,分 析出 三 种 营 尾 花 有 不 同 昔 片 长 度 和 


宽度 。 


4. 主 成 分 分 析 
主 成 分 分 析 是 一 种 通过 降 维 技术 把 多 个 变量 化 成 少数 几 个 主 成 分 的 方法 ,这 些 主 成 分 


能 够 反映 原始 变量 的 大 部 分 信息 ,它们 通常 表示 为 原始 变量 的 线性 组 合 。 


【 例 4-9】 在 某 中 学 随机 抽取 某 年 级 30 名 学 生 , 测 量 其 身高 (X1)、 体 重 (X2)、 胸 围 


(X3)、 坐 高 (X4) , 试 对 这 30 名 学 生 身体 四 项 指标 数据 作 主 成 分 分 析 ( 见 表 4-10、 图 4-16) 。 


表 4-10 30 名 学 生 身体 四 项 指标 数据 
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图 4-15 K 均值 聚 类 图 
序列 Xl X2 X3 X4 序列 Xl X2 X3 X4 
1 148 41 72 78 16 152 35 73 79 
2 139 34 71 76 17 149 47 82 79 
3 160 49 77 86 18 145 35 70 77 
4 149 36 67 9 1 160 47 74 87 
5 159 45 80 86 20 156 44 78 85 
6 142 31 66 76 21 151 42 73 82 
7 153 43 76 73 22 147 38 73 78 
8 150 43 2 79 23 157 39 68 80 
9 151 42 77 80 24 147 30 65 75 
10 139 31 68 74 25 157 48 80 88 
11 140 29 64 74 26 151 36 74 80 
12 161 47 78 84 27 144 36 68 76 
13 158 49 78 83 28 141 30 67 76 
14 140 33 67 73 29 139 32 68 73 
15 137 31 66 83 30 148 38 70 78 






































# 用 数据 框 形 式 输入 数据 
>student<— data.frame ( 
+X1l=c{148, 139, 160, 149, 159, 142, 153, 150, 151, 139,140, 161, 158, 140, 137, 152, 149, 145, 
160, 156,151, 147, 157, 147, 157, 151, 144, 141, 139, 148), 
+X2=c(41, 34, 49, 36, 45, 31, 43, 43, 42, 31,29, 47, 49, 33, 31, 35, 47, 35, 47, 44,42, 38, 39, 30, 
48, 36, 36, 30, 32, 38), 
+X3=c(72, 71, 77, 67, 80, 66, 76, 77, 77, 68,64, 78, 78, 67, 66, 73, 82, 70, 74, 78,73, 73, 68, 65, 
80, 74, 68, 6€7, 68, 70), 
+X4=c(78, 76, 86, 79, 86, 76, 83, 79, 80, 74,74, 84, 83, 77, 73, 79, 79, 77, 87, 85,82, 78, 80, 75, 
88, 80, 76, 76, 73, 78) 
+) 
># 做 主 成 分 分 析 , 并 显示 分 析 结 果 
> student .pr <-princomp (student, cor = TRUE) 
># 或 用 student .pr <- princomp (~ Xl+X2+X3+X4, data= student, cor=TRUE) 
> summary (student .pr, loadings= TRUE) 
Importance of components: 
Comp.1 Comp.2 Comp.3 Comp.4 
Standard deviation 1.8817805 0.55980636 0.28179594 0.25711844 
Proportion of Variance 0.8852745 0.07834579 0.01985224 0.01652747 
Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 
Loadings: 
Comp.1 Comp.2 Comp.3 Comp.4 
X1 -0.497 0.543 -0.450 0.506 
X2 -0.515 -0.210 -0.462 -0.691 
X3 -0.481 -0.725 0.175 0.461 
X4 -0.507 0.368 0.744 -0.232 
># standard deviation 行 表示 主 成 分 的 标准 差 , 即 主 成 分 的 方差 的 开 方 ,也 就 是 相应 特征 值 的 开 方 
>#proportion of variance 行 表示 方差 的 贡献 率 
>#cumulative proportion 行 表示 方差 的 累积 贡献 率 
>predict (student .pr) 
Comp.1 Comp.2 Comp.3 Comp.4 
[1,] 0.06990950 -0.23813701 - 0.35509248 -0.266120139 
[2,] 1.59526340 -0.71847399 0.32813232 -0.118056646 
[3,] -2.84793151 0.38956679 -0.09731731 -0.279482487 
[4,] 0.75996988 0.80604335 -0.04945722 -0.162949298 
[5,] -2.73966777 0.01718087 0.36012615 0.358653044 
[6,] 2.10583168 0.32284393 0.18600422 -0.036456084 
[7,] -1.42105591 - 0.06053165 0.21093321 - 0.044223092 
[8,] - 0.82583977 - 0.78102576 - 0.27557798 0.057288572 
[9,] - 0.93464402 - 0.58469242 - 0.08814136 0.181037746 
[10,] 2.36463820 -0.36532199 0.08840476 0.045520127 
[11,] 2.83741916 0.34875841 0.03310423 -0.031146930 
[12,] -2.60851224 0.21278728 -0.33398037 0.210157574 
[13,] - 2.44253342 - 0.16769496 - 0.46918095 - 0.162987830 
[14,] 1.86630669 0.05021384 0.37720280 - 0.358821916 
[15,] 2.81347421 - 0.31790107 -0.03291329 -0.222035112 
[16,] 0.06392983 0.20718448 0.04334340 0.703533624 
[17,] -1.55561022 -1.70439674 -0.33126406 0.007551879 
[18,] 1.07392251 -0.06763418 0.02283648 0.048606680 
[19,] -2.52174212 0.97274301 0.12164633 -0.390667991 
[20,] -2.14072377 0.02217881 0.37410972 0.129548960 


[21,] - 0.79624422 0.16307887 0.12781270 -0.294140762 
[22,] 0.28708321 -0.35744666 -0.03962116 0.080991989 
[23,] -0.25151075 1.25555188 - 0.55617325 0.109068939 
[24,] 2.05706032 0.78894494 -0.26552109 0.388088643 
[25,] -3.08596855 - 0.05775318 0.62110421 -0.218939612 
[26,] -0.16367555 0.04317932 0.24481850 0.560248997 
[27,] 1.37265053 0.02220972 -0.23378320 -0.257399715 
[28,] 2.16097778 0.13733233 0.35589739 0.093123683 
[29,] 2.40434827 -0.48613137 -0.16154441 -0.007914021 
[30,] 0.50287468 0.14734317 -0.20590831 -0.122078819 

> screeplot (student .pr,type= "lines")# 画 出 主 成 分 的 碎 石 图 
>biplot (student .pr, choices=1:2, scale= 1,pc.biplot=FALSE) 
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图 4-16 关于 第 1 第 2 主 成 分 样本 的 散 点 图 


由 图 4-16 可 以 看 出 ,第 1、 第 2 主 成 分 对 各 个 对 象 的 影响 。 例 如 23 号 ,身高 属于 正常 ， 
而 体重 偏 胖 。 

5. 典型 相关 分 析 

典型 相关 分 析 是 用 于 分 析 两 组 随机 变量 之 间 的 相关 程度 的 一 种 统计 方法 , 它 能 够 有 效 
地 揭示 两 组 随机 变量 之 间 的 相互 (线性 依赖 ) 关 系 。 

将 研究 两 组 变量 的 相关 性 问题 转化 为 研究 两 个 变量 的 相关 性 问题 ,此 类 相关 为 典型 相 
关 。 典 型 相关 计算 cancor(x,y,xcenter 二 TRUE,ycenter 二 TRUE)。 其 中 ,x、y 是 相应 的 数 
据 和 矩阵 ,xcenter,ycenter 是 逮 辑 变量 .TRUE 是 将 数据 中 心 化 ,FALSE 是 不 中 心 化 。 

典型 相关 分 析 的 简单 步骤 : 载 人 原始 数据 ,原始 数据 标准 化 scale, 典 型 相关 分 析 。 

【 例 4-10】 现 对 20 名 中 年 人 测 得 三 个 生理 指标 一 一 体重 (X1)、 腰 围 (X2) 及 脉搏 
(X3) ,三 个 训练 指标 一 一 引 体 向 上 (Y1) 、 起 座次 数 (Y2) 及 跳跃 次 数 (Y3), 试 分 析 这 组 数据 
的 相关 性 ( 见 图 4-17)。 











>test<-data.frame( 
+ Xl=c(191, 193, 189, 211, 176, 169, 154, 193, 176, 156, 
+ 189, 162, 182, 167, 154, 166, 247, 202, 157, 138), 





6 
I 3 3 M33, 33, 46; 31 Dy 33) 
X3=c(50, 58, 46, 56, 74, 50, 64, 46, 54, 54, 
52, 62, 56, 60, 56, 52, 50, 62, 52, 68), 
Tel rl 
2, 112; 4 6 17, 3 1 12, 1 2)» 
Y2=c(162, 101, 155, 101, 200, 120, 215, 70, 60, 225, 
110, 105, 101, 125, 251, 210, 50, 210, 230, 110), 
Y3=c(60, 101, 58, 38, 40, 38, 105, 31, 25, 73, 
60, 37, 42, 40, 250, 115, 50, 120, 80, 43) 


二 十 十 十 十 十 十 十 十 十 


+ ) 

># 为 了 消除 数量 级 的 影响 ,将 数据 做 标准 化 处 理 , 调 用 scale 函数 
> test<- scale (test) 

># 对 标准 化 的 数据 做 典型 相关 分 析 

> ca<- cancor (test[ ,1:3], test[ ,4:6]) 

># 计 算数 据 在 典型 变量 下 的 得 分 U=AX VBY 
>U< -as.matrix(test[, 1:3])% * % ca$ xcoef 
>V<-as.matrix(test[, 4:6])®% * % ca$ ycoef 
> 画 出 UL.V1 和 U3.V3 为 组 表 的 数据 散 点 图 
>plot (of ,1], W,1], xlab= "U1", ylab="V1") 
>plot (UL ,3], Wi,3], xlab="U3", ylab="V3") 
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图 4-17 散 点 图 


由 散 点 图 可 知 ,第 一 典型 相关 变量 分 布 在 一 条 直线 附近 ,第 三 典型 相关 变量 数据 很 分 
散 。 下 面 做 典型 相关 系数 的 显著 性 检验 。 

相关 分 析 的 目的 就 是 选择 多 少 对 典型 变量 ,因此 需要 做 典型 相关 系数 的 显著 性 检验 。 
若 认为 相关 系数 人 为 0。 就 没有 必要 考虑 第 & 对 典型 变量 了 。 

以 上 是 对 R 语言 的 概述 和 它 的 一 些 基本 操作 、 可 视 化 绘图 以 及 数据 分 析 。 


45 RHadoop 安装 与 使 用 


R 与 Hadoop 在 大 数据 方面 的 结合 应 用 工具 为 RHadoop。 本 小 节 主 要 介绍 RHadoop 
的 安装 与 使 用 。 





4.5.1 环境 准备 


首先 是 环境 准备 ,选择 Linux Ubuntu 操作 系统 12. 04 的 64 位 版 本 ,可 以 根据 自己 的 使 
用 习惯 选择 顺手 的 Linux。 但 JDK 一 定 要 用 Oracle SUN 官方 的 版 本 ,请 从 官网 下 载 , 操 作 
系统 自 带 的 OpenJDK 会 有 各 种 不 兼容 。JDK 请 选择 1. 6. x 版 本 ,JDK 1.7 版 本 也 会 有 各 
种 不 兼容 情况 。 

1) 操作 系统 Ubuntu 12. 04 x64 


Linux domU- 00- 16- 3e- 00- 00- 85 3.2.0- 23- generic # 36- Ubuntu SMP Tue Apr 10 20:39:51 UTC 2012 
x86 64 x86 64 x86 64 GNU/Linux 


2) Java 环境 


~ java -version 

java version "1.6.0 29" 

Java (TM) SE Runtime Environment (build 1.6.0 29-bll) 

Java HotSpot (TM) 64- Bit Server WM (build 20.4-b02, mixed mode) 


3) Hadoop 环境 


hadoop-1.0.3 hbase- 0.94.2 hive-0.9.0 pig-0.10.0 sqoop-1.4.2 thrift- 0.8.0 
Zookeeper- 3.4.4 


4) R 环境 


R version 2.15.3 (2013- 03- 01) -- "Security Blanket" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
ISBN 3- 900051- 07-0 

Platform: x86 64- pc- linux- gnu (64- bit) 


如 果 是 Ubuntu 12. 04 ,请 更 新 源 再 下 载 R2. 15. 3 版 本 。 


sh - c "echo deb http://mirror. bjtu. edu. cn/cran/bin/linux/ubuntu precise/ > >/etc/apt/ 
sources.list" 


apt- get update 
apt- get install r-base 


4.5.2 RHadoop 安装 


RHadoop 是 RevolutionAnalytics 的 工程 项 目 , 开 源 实现 代码 在 GitHub 社区 可 以 找 
到 。RHadoop 包含 三 个 RR 包 (rmr、rhdfs 及 rhbase), 分 别 对 应 Hadoop 系统 架构 中 的 
MapReduce、HDFS 及 HBase 三 个 部 分 。 由 于 这 三 个 库 不 能 在 CRAN 中 找到 ,所 以 需要 自 
己 下 载 。 

(1) 安装 这 三 个 库 的 依赖 库 。 

首先 是 rJava ,配置 好 JDK 1.6 的 环境 ,运行 R CMD javareconf 命令 ,R 的 程序 从 系统 
变量 中 会 读 取 Java 配置 。 打 开 R 程序 ,通过 install. packages 的 方式 ,安装 rJava。 

然后 ,安装 其 他 的 几 个 依赖 库 , reshape2、Rcpp \iterators \itertools ,digest\、RJSONIO、 





functional ,通过 install. packages 都 可 以 直接 安装 。 

(2) 安装 rhdfs 库 ,在 环境 变量 中 增加 HADOOP_CMD 和 HADOOP_STREAMING 
两 个 变量 ,可 以 用 export 在 当前 命令 窗口 中 增加 。 为 了 下 次 方便 使 用 ,最 好 把 变量 增加 到 
系统 环境 变量 /etc/environment 文件 中 。 再 用 R CMD INSTALL 安装 rhdfs 包 , 就 可 以 顺 
利 完成 了 。 

(3) 安装 rmr 库 ,使 用 R CMD INSTALL 也 可 以 顺利 完成 。 

(4) 安装 rhbase 库 。 

最 后 ,可 以 查看 一 下 ,RHadoop 都 安装 了 哪些 库 。 

由 于 使 用 硬盘 是 外 接 的 ,使 用 mount 和 软 连接 (ln -s) 挂 载 了 R 类 库 的 目录 ,所 以 是 R 
的 类 库 在 /disk1/system 下 面 ,路 径 为 /disk1/system/usr/local/lib/R/site-library/。 

一 般 R 的 类 库 目 录 是 /usr/lib/R/site-library 或 者 /usr/local/lib/R/site-library, 用 户 
也 可 以 使 用 whereis R 的 命令 查询 自己 计算 机 上 R 类 库 的 安装 位 置 。 

具体 操作 如 下 。 

(1) 下 载 RHadoop 相关 的 3 个 程序 包 。 


https://github.com/RevolutionAnalytics/RHadoop/wiki/Downloads 


Imr-2.1.0 
rhdfs-1.0.5 
rhase-1.1 


(2) 复制 到 /root/R 目录 。 


~ /R# pwd 
/root/R 
~/R#1s 
rhbase 1.1.tar.gz rhdfs 1.0.5.tar.gz rmr2 2.1.0.tar.gz 


(3) 安装 依赖 库 。 
命令 行 执行 。 


启动 R 程序 。 


install .packages ("rJava") 
install .packages ("reshape2") 
install.packages ("Rcpp") 
install .packages ("iterators") 
install .packages ("itertools") 
install .packages ("digest") 
instal1.packages ("RJSONIO") 
instal1.packages ("functional") 


(4) 安装 rhdfs 库 。 


~ vi /etc/environment 

HADOOP_ CMD= /root/hadoop/hadoop- 1.0.3/bin/hadoop 

HADOOP STREAMING= /root/hadoop/hadoop- 1.0.3/contrib/streaming/hadoop- streaming-1.0.3.jar 
. /etc/environment 





(5) 安装 rmr 库 。 


~ ROD INSTALL rmr2 2.1.0.tar.gz 


(6) 安装 rhbase 库 。 
(7) 查看 所 有 的 安装 包 。 
~ 1s /diskl/system/usr/local/lib/R/site- library/ 


digest functional iterators itertools plyr Rcpp reshape2 rhdfs rJava RJSONIO 
Imr2 stringr 


4.5.3 RHadoop 程序 应 用 
安装 好 rhdfs 和 rmr 两 个 包 后 ,就 可 以 使 用 R 尝试 一 些 Hadoop 的 操作 了 。 
1. 基本 的 hdfs 文件 操作 
(1) 查看 hdfs 文件 目录 。 
Hadoop 的 命令 : 
hadoop fs -1s /user 
R 语言 函数 : 
hdfs.1s("/user/") 


(2) 查看 Hadoop 数据 文件 。 
| Hadoop 的 命令 : 


hadoop fs - cat /user/hdfs/o_same school/part-m- 00000 
RR 语言 函数 : 

hdfs.cat ("/user/hdfs/o_same school/part-m- 00000") 

2. 执行 一 个 rmr2 算法 的 任务 

普通 的 R 语言 程序 : 

>small.ints = 1:10 

> sapply (smal1.ints，function (x) X^2) 

MapReduce 的 RR 语言 程序 : 


>small.ints = to.dfs(1:10) 

>mapreduce (input = small.ints, map = function(k, v) cbind(v，v^2)) 

> from.dfs ("/tmp/RtmpWnzx14/file5deb791fcbd5") 

因为 MapReduce 只 能 访问 HDFS 文 件 系 统 , 首 先 用 to. dfs 把 数据 存储 到 HDFS 文件 
系统 里 。MapReduce 的 运算 结果 使 用 from. dfs 函数 从 HDFS 文件 系统 中 取出 。 

第 二 个 rmr 的 例子 是 wordcount ,对 文件 中 的 单词 计数 。 

在 HDFS 上 提前 放置 了 数据 文件 /user/hdfs/o_ same_school/part-m-00000。 编 写 
wordcount 的 MapReduce 函数 ,执行 wordcount 函数 ,最 后 用 from. dfs 从 HDFS 中 取得 结 
果 。 操 作 如 下 : 





> input<- '/user/hdfs/o_same school/part-m- 00000" 
>wordcount = function (input，output = NULL，Pattern = ""){ 
wc-map = function(., lines) { 
keyval (unlist( strsplit(x= lines,split = pattern)),1) 


Wc.reduce =function (word, counts ) { 
keyval (word, sum(counts)) 
} 
mapreduce (input = input ,output = output, input.format = "text", 
map= wc.map, reduce = wc.reduce,combine = TT) 
>wordcount (input) 
> from.dfs ("/tmp/RtmpfZUFEa/file6cac626aa4a7") 


3. rhdfs 包 的 使 用 
启动 R 程序 。 


> library (rhdfs) 

Loading required package: rJava 

HADOOP_CMD= /root/hadoop/hadoop- 1.0.3/bin/hadoop 
Be sure to run hdfs.init() 

>hdfs.init() 


(1) 命令 查看 Hadoop 目录 。 


~ hadoop fs -1s /user 


Found 4 items 

drwxr-xr-x -root supergroup 0 2013- 02- 01 12:15 /user/conan 
drwxr-xr-x -root supergroup 0 2013- 03- 06 17:24 /user/hdfs 
drwxr-xr-x -root supergroup 0 2013- 02- 26 16:51 /user/hive 
drwxr-xr-x -root supergroup 0 2013- 03- 06 17:21 /user/root 


(2) rhdfs 查看 Hadoop 目录 。 


>hdfs.1s("/user/") 


permission owner group size modtime file 
1 drwxr-xr-x root supergroup 0 2013- 02- 01 12:15 /user/conan 
2 drwxr- xr-X root supergroup 0 2013- 03- 06 17:24 /user/hdfs 
3 drwxr- xr-X root supergroup 0 2013- 02- 26 16:51 /user/hive 
4 drwxr-—xr-x root supergroup 0 2013- 03- 06 17:21 /user/root 


(3) 命令 查看 Hadoop 数据 文件 。 


~ hadoop fs -cat /user/hdfs/o_same _ school/part-m- 00000 

10,3, tsinghua university, 2004- 05- 26 15:21:00.0 

23, 4007, 北 京 第 一 七 一 中 学 ,2004- 05- 31 06:51:53.0 

51,4016, 大 连理 工大 学 ,2004- 05- 27 09:38:31.0 

89, 4017, Amherst College, 2004- 06- 01 16:18:56.0 

92,4017, 斯 坦 福 大 学 ,2012- 11- 28 10:33:25.0 

99, 4017, Stanford University Graduate School of Business,2013- 02- 19 12:17:15.0 
113, 4017, Stanford University, 2013- 02- 19 12:17:15.0 





123, 4019, St Paul's Co- educational College - Hong Kong, 2004- 05- 27 18:04:17.0 
138,4019, 香 港 苏 浙 小 学 ,2004- 05- 27 18:59:58.0 

172, 4020, University, 2004- 05- 27 19:14:34.0 

182, 4026, ff,2004- 05- 28 04:42:37.0 

183, 4026, ff,2004- 05- 28 04:42:37.0 

189, 4033, tsinghua, 2011- 09- 14 12:00:38.0 

195, 4035,ba, 2004- 05- 31 07:10:24.0 

196, 4035,ma, 2004- 05- 31 07:10:24.0 

197, 4035, southampton university, 2013- 01- 07 15:35:18.0 
246, 4067, 美 国 斯 坦 福 大 学 ,2004- 06- 12 10:42:10.0 
254,4067, 美 国 斯 坦 福 大 学 ,2004- 06- 12 10:42:10.0 

255, 4067, 美 国 休 士 顿 大 学 ,2004- 06- 12 10:42:10.0 
257,4068, 清 华 大 学 ,2004- 06- 12 10:42:10.0 
258,4068, 北 京 八 中 ,2004- 06- 12 17:34:02.0 

262, 4068, 香 港 中 文大 学 ,2004- 06- 12 17:34:02.0 

310,4070, 首 都 师范 大 学 初等 教育 学 院 ,2004- 06- 14 15:35:52.0 
312, 4070, 北 京师 范 大 学 经 济 学 院 ,2004- 06- 14 15:35:52.0 


(4) rhdfs 查看 Hadoop 数据 文件 。 


> hdfs.cat("/user/hdfs/o_same_ school/part-m- 00000") 

[1] "10,3,tsinghua university, 2004- 05- 26 15:21:00.0" 

[3] "23, 4007, 北 京 第 一 七 一 中 学 ,2004- 05- 31 06:51:53.0" 

[ 习 "51,4016, 大 连理 工大 学 ,2004- 05- 27 09:38:31.0" 

[4] "89, 4017, Amherst College, 2004- 06- 01 16:18:56.0" 

[5] "92,4017, 斯 坦 福 大 学 ,2012- 11- 28 10:33:25.0" 

[6] "99, 4017, Stanford University Graduate School of Business,2013- 02- 19 12:17:15.0" 
[7] "113, 4017, stanford University,2013- 02- 19 12:17:15.0" 

[8] "123, 4019, St Paul's Co- educational College - Hong Kong, 2004- 05- 27 18:04:17.0" 
[9] "138, 4019, 香 港 苏 浙 小 学 ,2004- 05- 27 18:59:58.0" 

[10] "172, 4020, University, 2004- 05- 27 19:14:34.0" 

[11] "182, 4026, ff,2004- 05- 28 04:42:37.0" 

[12] "183, 4026, ff,2004- 05- 28 04:42:37.0" 

[13] "189, 4033, tsinghua, 2011- 09- 14 12:00:38.0" 

[14] "195, 4035,ba, 2004- 05- 31 07:10:24.0" 

[15] "196, 4035,ma, 2004- 05- 31 07:10:24.0" 

[16] "197, 4035, southampton university, 2013- 01- 07 15:35:18.0" 
[17] "246, 4067, 美 国 斯 坦 福 大 学 ,2004- 06- 12 10:42:10.0" 

[18] "254, 4067, 美 国 斯 坦 福 大 学 ,2004- 06- 12 10:42:10.0" 

[19] "255, 4067, 美 国 休 士 顿 大 学 ,2004- 06- 12 10:42:10.0" 

[20] "257, 4068, 清 华 大 学 ,2004- 06- 12 10:42:10.0" 

[21] "258, 4068, 北 京 八 中 ,2004- 06- 12 17:34:02.0" 

[22] "262, 4068, 香 港 中 文大 学 ,2004- 06- 12 17:34:02.0" 

[23] "310, 4070, 首 都 师范 大 学 初等 教育 学 院 ,2004- 06- 14 15:35:52.0" 
[24] "312, 4070, 北 京师 范 大 学 经 济 学 院 ,2004- 06- 14 15:35:52.0" 


4. rmr2 包 的 使 用 
启动 R 程序。 


> library (mr2) 














Loading required package: Roepp 
Loading required package: RJSONIO 
Loading required package: digest 
Loading required package: functional 
Loading required package: stringr 
Loading required package: plyr 
Loading required package: reshape2 


(1) 执行 + 任务 。 


>small.ints= 1:10 
> sapply (small.ints, function (x) x”2) 
[1] 1 4 9 16 25 36 49 64 81100 


(2) 执行 rmr2 任务 。 


>small.ints = to.dfs(1:10) 


13/03/07 12:12:55 INFO util.NativeCodeLoader: Loaded the native- hadoop library 

13/03/07 12: 12: 55 INFO zlib. ZlibFactory: Successfully loaded & initialized native — 
Zlib library 

13/03/07 12:12:55 INFO compress.CodecPool: Got brand- new compressor 


>mapreduce (input = small.ints, map = function(k, v) cbind(v，v^2)) 


packageJobJar: [ /tmp/RtmpWnzx14/rmr— local - env5deb2b300d03, /tmp/RtmpWnzx14/rmr- global— 
env5deb398a522b, /tmp/RtmpWnzx14/rmr - streaming - map5deb1552172d, /root/hadoop/trp/hadoop— 
unjar7838617732558795635/] [] /tmp/streamjcb4380275136001813619.jar tmpDir=null 

13/03/07 12:12:59 INFO mapred.FileInputFormat: Total input paths to process : 1 

13/03/07 12:12:59 INFO streaming.StreamJob: getLocalDirs(): [/root/hadoop/tmp/mapred/local] 
13/03/07 12:12:59 INFO streaming.StreamJob: Running job: job 201302261738_0293 

13/03/07 12:12:59 INFO streaming.StreamJob: To kill this job, run: 

13/03/07 12: 12: 59 INFO streaming. StreamJob: /diskl/hadoop/hadoop - 1. 0. 3/libexec/../bin/ 
hadoop job -Dmapred.job.tracker=hdfs://r.qa.tianji.com:9001 -kill job 201302261738_0293 
13/03/07 12: 12: 59 INFO streaming. StreamJob: Tracking URL: http://192. 168. 1. 243: 50030/ 
jobdetails.jsp? jobid=job 201302261738_0293 

13/03/07 12:13:00 INFO streaming.StreamJob: map 0% reduce 0% 

13/03/07 12:13:15 INFO streaming.StreamJob: map 100% reduce 0% 

13/03/07 12:13:21 INFO streaming.StreamJob: map 100% reduce 100% 

13/03/07 12:13:21 INFO streaming.StreamJob: Job complete: job 201302261738_0293 

13/03/07 12:13:21 INFO streaming.StreamJob: Output: /tmp/RtmpWinzx14/file5deb791fcbd5 


> from.dfs ("/tmp/RtmpWnzx14/file5deb791fcbd5") 


$ key 
NULL 
$ val 

Vv 
[i 3 1 
[2] 2 站 





[4] 4 16 
[5,] 5 25 
[6,] 6 36 
[7] 7 49 
[8,] 8 64 
[9,] 9 81 
[10,] 10 100 


(3) 用 wordcount 执行 rmr2 任务 。 


> input<- '/user/hdfs/o_same_ school/part-m- 00000" 
>wordcount = function(input, output = NULL, pattern= ""){ 


wc.map = function(., lines) { 
keyval (unlist( strsplit(x= lines,split = pattern)),1) 


wc.reduce =function (word, counts ) { 
keyval (word, sum(counts)) 


mapreduce (input = input ,output = output, input.format = "text", 
map= Wc.map, reduce = wc.reduce,combine = T) 


>wordcount (input) 


packageJobJar: [/tmp/RtmpfZUFEa/rmr- local - env6cac64020a8f, /tmp/Rtmpf2UFEa/mr- global— 
env6cac73016df3, /tmp/RtmpfZUFEa/rmr - streaming - map6cac7f145e02， /tmp/RtmpfZUFEa/rmr — 
Streaming - reduce6cac238dbcf， /tmp/RtmpfZUFEa/rmr - streaming - combineécac2b9098d4, /root/ 
hadoop/tmp/hadoop - unjar6584585621285839347/] [ ] /tmp/streamjob9195921761644130661. jar 
tmpDir=null 

13/03/07 12:34:41 INFO util.NativeCodeLoader: Loaded the native- hadoop library 

13/03/07 12:34:41 WARN snappy.Loadsnappy: Snappy native library not loaded 

13/03/07 12:34:41 INFO mapred.FileInputFormat: Total input paths to process : 1 

13/03/07 12:34:41 INFO streaming.StreamJcb: getLocalDirs () : [/root/hadoop/tmp/mapred/local] 
13/03/07 12:34:41 INFO streaming.StreamJob: Running job: job 201302261738_0296 

13/03/07 12:34:41 INFO streaming.StreamJob: To kill this job, run: 

13/03/07 12: 34: 41 INFO streaming. StreamJob: /diskl/hadoop/hadoop - 1. 0. 3/libexec/../bin/ 
hadoop job -Dmapred.job.tracker=hdfs://r.qa.tianji.com:9001 -kill job 201302261738_0296 
13/03/07 12: 34: 41 INFO streaming. StreamJob: Tracking URL: http://192. 168. 1. 243: 50030/ 
jobdetails.jsp? jobid=job 201302261738 0296 

13/03/07 12:34:42 INFO streaming.StreamJcb: map 0% reduce 0% 

13/03/07 12:34:59 INFO streaming.StreamJob: map 100% reduce 0% 

13/03/07 12:35:08 INFO streaming.StreamJob: map 100% reduce 17% 

13/03/07 12:35:14 INFO streaming.StreamJob: map 100% reduce 100% 

13/03/07 12:35:20 INFO streaming.StreamJob: Job complete: job 201302261738 0296 





> from.dfs ("/tmp/Rtmpf2UFEa/file6cac626aa4a7") 





$ key 
Ee 
[2] "04:42:37.0" 
[3] "06: 
[4] "07:10:24.0" 

[5] "09:38:31.0" 

[加 "10:33:25.0" 

[7] "10,3,tsinghua" 

[8] "10:42:10.0" 

[9] "113, 4017, stanford" 

[10] "12:00:38.0" 

[£12] "12:17:15.0" 

[12] "123, 4019, st" 

[13] "138,4019, 香 港 苏 浙 小 学 ,2004- 05- 27" 
[14] "15:21:00.0" 

[15] "15:35:18.0" 

[16] "15:35:52.0" 

[17] "16:18:56.0" 

[18] "172, 4020, University, 2004- 05- 27" 

[19] "17:34:02.0" 

[20] "18:04:17.0" 

[21] "182, 4026, ff,2004- 05- 28" 

[22] "183, 4026, ff,2004- 05- 28" 

[23] "18:59:58.0" 

[24] "189, 4033, tsinghua, 2011- 09- 14" 

[25] "19:14:34.0" 

[26] "195, 4035,ba, 2004- 05- 31" 

[27] "196, 4035,ma, 2004- 05- 31" 

[28] "197, 4035, southampton" 

[29] "23, 4007, 北 京 第 一 七 一 中 学 ,2004- 05- 31" 
[30] "246, 4067, 美 国 斯 坦 福 大 学 ,2004- 06- 12" 
[31] "254,4067, 美 国 斯 坦 福 大 学 ,2004- 06- 12" 
[32] "255, 4067, 美 国 休 士 顿 大 学 ,2004- 06- 12" 
[33] "257,4068, 清 华 大 学 ,2004- 06- 12" 

[34] "258,4068, 北 京 八 中 ,2004- 06- 12" 

[35] "262, 4068, 香 港 中 文大 学 ,2004- 06- 12" 
[3@ "312, 4070, 北 京师 范 大 学 经 济 学 院 ,2004- 06- 14" 
[37] "51, 4016, 大 连理 工大 学 ,2004- 05- 27" 
[38] "89, 4017, Amherst" 

[39] "92, 4017, 斯 坦 福 大 学 ,2012- 11- 28" 

[40] "99, 4017, stanford" 

[41] "Business, 2013- 02- 19" 

[42] "co- educational" 

[43] "college" 

[44] "college, 2004- 06- 01" 

[45] "Graduate" 

[46] "Hong" 

[47] “Kong, 2004- 05-27" 

[48] "of" 

[49] "Paul's" 

[50] "school" 





[51] "University" 

[52] "university,2004- 05- 26" 
[53] "university,2013- 01- 07" 
[54] "University,2013- 02- 19" 


[55] "310,4070, 首 都 师范 大 学 初等 教育 学 院 ,2004- 06- 14" 


$ val 
L222 
L300] LLLLYLILLILLLTLLLLL 


由 这 个 例子 看 出 字段 计数 的 结果 ,例如 在 这 个 数据 文件 中 ,"310,4070 ,首都 师范 大 学 初 
等 教育 学 院 ,2004-06-14" 这 个 字段 只 有 1 个 。 


本 章 详细 阐述 了 分 析 工 具有 语言 ,包括 R 语言 的 安装 与 使 用 ,R 语言 中 包 的 使 用 ,R 语 
言 数 据 的 基本 操作 和 常用 函数 ,R 语言 绘图 参数 设置 和 常用 图 形 的 绘制 ,R 语言 数据 处 理 基 
础 函数 和 多 元 统计 分 析 , 以 及 R 语言 在 大 数据 环境 Hadoop 下 应 用 工具 RHadoop 的 安装 与 
使 用 。 





R 语言 概述 十 基本 操作 . mp4(35. 9MB) R 语言 概述 十 基本 操作 . mp4(22. 8MB) 


1. 解释 表 4-11 所 列 函 数 的 功能 
表 4-11 函数 与 功能 





函数 功 能 





prod 





which. min(max) 





sort 








cummax(cummax) 








续 表 








CeX 





lty 








lwd 


2. 选择 题 
(1) head(x) 表 示 显 示 数 据 框 的 前 ( “) 行 。 
A. 4 B. 5 ee ; 承受 
(2) 条 形 图 的 简单 画 法 格式 为 ( We 
A. barplot(height) B. plot(height) C. brplot(height) D. hist(height) 
(3) 下 列 不 属于 聚 类 分 析 的 一 项 是 ( ”)。 
A， 系谱 聚 类 B. 方差 聚 类 C. 密度 聚 类 D. K 均值 聚 类 
3. 操作 题 
(1) 建立 一 个 R 文 件 , 在 文件 中 输入 变量 zx=(1,3,5)T,y 一 (2,4,6)7, 并 作 以 下 计算 。 
@ 计算 > 一 z 十 2y。 
@ 计算 z 与 > 的 内 积 。 
(2) A<-c(rep(1:3,2),2:1);A 
@ 写 出 运行 这 行 代码 的 结果 。 
@ 写 出 A[A[A==1]]==A[which(A==1)] 的 结果 。 
(3) 某 学 校对 50 名 男生 测定 血清 总 蛋白 含量 (g/L) ,数据 如 下 : 
74.3 78. 8 68. 8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 
79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 
75. 8 75. 8 68. 8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 
70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 
75. 8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3 
计算 均值 ,方差 ,标准 差 , 极 差 。 
(4) 绘 出 习题 (2) 和 习题 (3) 的 直方 图 和 核 密度 图 。 








第 2 篇 
大 数据 挖掘 技术 


线性 分 类 方法 


【内 容 摘 要 】 分 类 (classification) 就 是 确定 对 象 属于 哪个 预定 义 的 目标 类 ,就 是 通过 学 
习 一 个 目标 函数 (target function)fCx) ,把 每 个 属性 集 x 映射 到 一 个 预先 定义 的 类 标号 y。 
其 中 ,目标 函数 也 称 为 分 类 模型 (classification model) 。 

在 本 章 中 ,对 数据 挖掘 方法 中 主要 的 三 类 线性 分 类 方法 结合 具体 实例 进行 讲解 : 通过 
一 组 医疗 数据 来 介绍 多 元 线性 方法 ; 通过 投篮 进 球 数据 来 解释 Logistic 方法 原理 ; 用 线性 
判别 分 析 对 高 尾 花 数 据 iris 进行 分 析 。 

【学 习 目 标 】 通过 本 章 的 学 习 , 熟 悉 和 掌握 大 数据 挖掘 方法 中 的 线性 分 类 方法 ,包括 多 
元 线性 回归 \logistic 回归 、 线 性 判别 分 析 ,并 结合 本 章 中 的 实例 更 加 深入 地 理解 线性 分 类 的 
应 用 方法 。 


5.1 线性 分 类 方法 综述 与 评价 准则 


线性 分 类 问题 是 一 个 普遍 存在 的 问题 ,在 各 个 领域 都 有 不 同 的 应 用 。 分 类 方法 就 是 一 
种 根据 输入 数据 集 建立 分 类 模型 的 系统 方法 。 


5.1.1 线性 分 类 方法 综述 


线性 分 类 问题 包括 建立 线性 回归 模型 logistic 回归 模型 线性 判别 分 析 等 。 

线性 回归 (Linear Regression) 是 利用 称 为 线性 回归 方程 的 最 小 平方 函数 对 一 个 或 多 个 
自 变量 和 因 变 量 之 间 关 系 进行 建 模 的 一 种 回归 分 析 。 只 有 一 个 自 变 量 的 情况 称 为 简单 回 
归 , 大 于 一 个 自 变 量 情 况 的 叫 作 多 元 回归 。 在 线性 回归 中 ,数据 使 用 线性 预测 函数 来 建 模 ， 
并 且 未 知 的 模型 参数 也 是 通过 数据 来 估计 。 这 些 模型 叫 作 线性 模型 。 本 章 重点 介绍 多 元 线 
性 回归 ,并 用 多 元 线性 回归 模型 预测 医疗 费用 。 

logistic 回归 与 多 元 线性 回归 实际 上 有 很 多 相同 之 处 ,最 大 的 区 别 在 于 它们 的 因 变 量 不 
同 。 正 因为 如 此 ,这 两 种 回归 可 以 归于 同一 个 家 族 , 即 广义 线性 模型 (Generalized Linear 
Model) 。 如 果 因 变量 是 连续 的 ,就 是 多 元 线性 回归 ; 如 果 是 二 项 分 布 ,就 是 logistic 回归 ; 
如 果 是 poisson 分 布 , 就 是 poisson 回归 ; 如 果 是 负 二 项 分 布 , 就 是 负 二 项 回归 ,等 等 。 本 章 
还 会 着 重 讲解 logistic 回归 ,并 用 logistic 回归 模型 分 析 关 于 射门 命中 率 的 数据 。 

线性 判别 分 析 (Linear Discriminant Analysis) 属 于 确定 性 判别 ,基本 思想 是 将 高 维 的 模 
式样 本 投影 到 最 佳 鉴别 矢量 空间 ,以 达到 抽取 分 类 信息 和 压缩 特征 空间 维 数 的 效果 。 使 用 
这 种 方法 能 够 使 投影 后 模式 样本 的 类 间 散 布 矩 阵 最 大 ,并 且 类 内 散布 矩阵 最 小 。 也 就 是 说 ， 





投影 后 保证 模式 样本 在 新 的 子 空 间 有 最 大 的 类 间距 离 和 最 小 的 类 内 距离 , 即 模式 在 该 空间 
中 有 最 佳 的 可 分 离 性 。 我 们 将 运用 线性 判别 方法 来 分 析 房屋 租金 的 数据 。 

虽然 分 类 问题 很 多 、 很 复杂 ,但 是 仍 有 解决 分 类 问题 的 一 般 方法 及 步骤 。 

(1) 将 已 知 分 类 数据 记录 组 成 一 个 训练 集 (training set) ,将 未 知 分 类 数据 记录 组 成 一 
个 测试 集 (或 称 为 检验 集 ) (test set) 。 

(2) 结合 学 习 算法 对 训练 集 数 据 进 行 归纳 ,形成 一 个 学 习 模型 。 

(3) 将 学 习 模型 优化 成 一 个 适用 性 更 高 的 分 类 模型 。 

(4) 结合 测试 集 的 具体 属性 情况 ,形成 一 个 应 用 模型 。 

(5) 将 应 用 模型 运用 于 测试 集 。 


5.1.2 分 类 方法 评价 准则 


分 类 方法 评价 的 方法 有 保持 方法 、 随 机 二 次 抽样 ,交叉 验证 .自助 法 等 。 

(1) 保持 方法 : 将 被 标记 的 原始 数据 划分 成 两 个 不 相交 的 集合 ,分 别称 为 训练 集 和 测 
试 集 。 在 训练 集 上 归纳 形成 分 类 模型 ,在 测试 集 上 评估 模型 的 性 能 。 通 常 训练 集 占 整个 数 
据 的 2/3 ,测试 集 占 整个 数据 的 1/3。 保 持 方法 较为 简便 ,但 存在 许多 局 限 性 。 例 如 ,由 于 要 
将 原 数 据 保留 一 部 分 作 测 试 集 , 则 用 于 训练 的 样本 较 少 ,因此 所 建立 的 模型 不 够 完善 。 

(2) 随机 二 次 抽样 : 通过 多 次 重复 保持 方法 来 改进 对 分 类 器 性 能 的 估计 。 由 于 随机 二 
次 抽样 的 原理 与 保持 方法 相似 ,那么 也 会 出 现 类 似 因 训练 阶段 未 能 充分 利用 数据 而 造成 的 
模型 不 完善 ,准确 率 不 可 靠 等 问题 。 

(3) 交叉 验证 : 在 交叉 验证 中 ,每 个 记录 用 于 训练 的 次 数 相 同 , 并 且 恰好 检验 一 次 。 若 
将 数据 分 为 相同 大 小 的 两 个 子 集 , 则 先 选择 一 个 子 集 作 训练 集 , 另 一 个 作 测 试 集 ,然后 交换 
两 个 集合 的 角色 ,这 种 方法 叫 作 二 折 交 叉 验 证 。K 折 交 叉 验 证 同 理 , 将 数据 分 为 相同 大 小 
的 k 个 子 集 , 每 次 运行 ,选择 其 中 一 份 作 测试 集 , 其 余 的 子 集 作为 训练 集 , 该 过 程 重复 k 次 ， 
使 得 每 份 数据 恰好 检验 一 次 。 当 出 现 运 行 次 数 k 与 数据 集 的 大 小 N 相等 时 ,每 个 测试 集 只 
有 一 个 记录 ,这 种 方法 也 称 为 留 一 法 。 这 种 所 谓 的 留 一 法 可 以 使 用 尽 可 能 多 的 训练 记录 ,而 且 
测试 集 之 间 是 互 斥 的 ,可 以 有 效 覆 盖 整 个 数据 集 。 但 是 整个 过 程 需要 重复 N 次 ,计算 量 很 大 。 

(4) 自助 法 : 在 以 上 方法 中 ,我 们 采用 的 都 是 不 放 回 抽样 ,而 自助 法 中 训练 记录 采用 有 
放 回 抽样 , 即 已 经 选 作 训练 的 记录 将 会 被 放 入 原 数 据 集中 ,使 它 等 概率 被 重复 抽取 。 

分 类 模型 的 性 能 根据 模型 的 正确 预测 和 错误 预测 的 检验 记录 计数 进行 评估 ,这 些 计数 
将 通过 函数 table() 对 预测 结果 和 真实 结果 做 出 对 比 后 被 存放 在 混淆 矩阵 中 。 





5.2 多 元 线性 回归 分 析 


回归 分 析 是 通过 建立 模型 来 研究 变量 与 变量 之 间 的 关系 ,分 析 一 些 变 量 对 某 个 变量 的 
影响 并 进行 预测 和 控制 的 一 种 有 效 工具 。 多 元 线性 回归 是 一 种 有 多 种 变量 的 常用 回归 分 
析 法 。 


5.2.1 回归 分 析 原 理 
回归 分 析 可 以 用 来 挑选 与 响应 变量 相关 的 解释 变量 ,可 以 描述 两 者 的 关系 ,也 可 以 生成 


一 个 等 式 , 通 过 解释 变量 来 预测 响应 变量 。 变 量 之 间 的 关系 可 以 分 为 函数 关系 和 相关 关系 。 
函数 关系 可 以 用 一 个 精确 的 定量 关系 式 来 表示 ,但 是 相关 关系 不 能 。 如 何 预测 因 变 量 的 取 
值 , 就 要 靠 回归 分 析 来 完成 。 回 归 分 析 已 有 200 多 年 的 历史 ,应 用 于 工商 管理 、 医 学 .教育 心 
理 多 个 领域 。 按 研究 方法 划分 ,回归 分 析 研 究 的 范围 大 致 为 6 种 ,如 图 5-1 所 示 。 


一 一 元 线性 回归 
线性 回归 一 多 元 线性 回归 
多 个 因 变 量 和 多 个 自 变量 的 回归 


如 何 从 数据 推断 回归 模型 基本 假设 的 合理 性 
基本 假设 不 成 立时 如 何 对 数据 进行 修正 
判断 回归 方程 拟 合 的 效果 

选择 回归 函数 的 形式 

自 变量 选择 的 标准 

逐步 分 析 回归 法 

厂 偏 最 小 二 乘 回归 

岭 回归 
L_ 主 成 分 回归 


-元 非 线性 回归 
非 回归 分 析 分 段 回归 


多 元 非 线性 回归 


回归 诊断 


回归 变量 选择 | 
回归 分 析 一 


参数 估计 方法 改进 一 
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图 5-1 回归 分 析 分 类 
针对 不 同 的 分 类 问题 ,拥有 不 同 的 回归 模型 。 常 见 的 回归 模型 如 表 5-1 所 示 。 
表 5-1 常见 的 回归 模型 
回归 模型 试用 条 件 算法 描述 
对 一 不 或 多 不 自 变 量 和 内 变量 之 间 的 线性 关系 进行 
线性 回归 。 | 因 变 量 和 自 变量 是 线性 关系 | 入 梭 。 开 最 一季 下 来 角 模 写 系 数 
对 一 个 或 多 个 自 变 量 和 因 变量 之 间 的 非 线性 关系 这 
间 纹 性 回归 | 因 变量 和 自 变量 之 间 不 存在 线 | 行 建 模 。 如 打非 线性 关系 可 以 通过 简单 的 函数 变换 
. 性 关系 呈 线 性 关系 ,用 线性 回归 的 思想 求解 ; 如 果 不 能 转 
化 ,用 非 线性 最 小 二 乘法 求解 
广义 线性 回归 模 理 的 特例 ,利用 Logistic 函数 将 因 
池 辑 回归 。 | 四 变量 一 般 有 1 和 0 是 否 ) 两 个 “让 量 的 取 值 范围 控制 在 0 和 1 之 间 , 表 示 取 值 为 1 
取 值 
的 概率 
5.2.2 多 元 线性 回归 分 析 R 案例 


使 用 直线 回归 的 模型 叫 作 线性 回归 。 如 果 只 有 一 个 单一 的 自 变量 ,就 是 简单 线性 回归 ， 
否则 就 是 多 元 回归 。 这 两 个 模型 都 假设 因 变量 是 连续 的 。 人 逻辑 回归 可 以 用 来 对 二 元 分 类 的 
结果 建 模 。 泊 松 回 归 可 以 用 来 对 整 型 的 计数 数据 建 模 。 线 性 回归 人 逻辑 回归 、 泊 松 回 归 以 及 
其 他 回归 都 属于 广义 线性 回归 。 

















【 例 5-1】 应 用 多 元 线性 回归 分 析 一 组 关于 预测 医疗 费用 的 例子 。 该 数据 是 编者 从 
Packt 出 版 社 的 网 站 上 下 载 的 insurance. csv, 通 过 患者 的 年 龄 ,性别 、 是 否 吸烟 等 信息 来 预 
测 其 在 某 段 时 间 支 付 医疗 费用 的 情况 。 

第 一 步 : 收集 .探索 和 准备 数据 。 


> insurance< -read.csv("D:\ 第 5 章 例题 \insurance.csv", stringsAsFactors= T) 
函数 strO 〇 确认 该 数据 转换 了 我 们 之 前 所 期 望 的 形式 。 


>str (insurance) 
"data.frame': 1338 obs. of 7 variables: 
age : int 19 18 28 33 32 31 46 37 37 60 ... 
sex : Factor Ww/ 2 levels "female","male": 1222211121... 
bmi :num 27.9 33.8 33 22.7 28.9 ... 
:int 0130001320... 
smoker : Factor WwW/ 2 levels "no","yes": 2111111111... 
region : Factor w/ 4 levels "northeast","northwest", ... 
charges : num 16885 1726 4449 21984 3867 ... 


既然 因 变 量 为 charges, 那 么 让 我 们 一 起 来 看 看 它 是 如 何 分 布 的 。 


> summary (insurance$ charges) 
Min. lst Qu. Median Mean 3rd Qu. Max. 
' 本 1122 4740 9382 13270 16640 63770 
| 因为 平均 值 远大 于 中 位 数 ,表明 保险 费用 的 分 布 是 右 偏 的 。 我 们 可 以 使 用 直观 的 直方 
图 来 证 实 这 一 点 ,如 图 5-2 所 示 。 


>hist (insurance$ charges) 


从 summary() 的 输出 中 我 们 知道 ,变量 region 有 4 个 水 平 ,但 我 们 需要 仔细 看 一 看 它 
们 是 如 何 分 布 的 。 
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图 5-2 ”利用 函数 hist() 得 到 的 关于 region 的 直方 图 











>table (insurance$ region) 
northeast northwest southeast southwest 
324 325 364 325 


在 使 用 回归 模型 拟 合 数据 之 前 ,有 必要 确定 自 变量 与 因 变量 之 间 以 及 各 自 变量 之 间 是 
如 何 相关 的 。 我 们 可 以 用 cor() 函 数 创 建 一 个 相关 系数 矩阵 。 


> cor (insurance[ c ("age", "bmi", "children", "charges")]) 




















age bmi children charges 
age 1.0000000 0.1092719 0.04246900 0.29900819 
bmi 0.1092719 1.0000000 0.01275890 0.19834097 


Children 0.0424690 0.0127589 1.00000000 0.06799823 
charges 0.2990082 0.1983410 0.06799823 1.00000000 


也 可 以 创建 一 个 散 点 图 矩阵 来 研究 数据 之 间 的 内 在 相关 。 默 认 的 R 安装 中 就 提供 了 
函数 pairs() ,该 函数 为 产生 散 点 图 数据 提供 了 基本 的 功能 。 为 了 调用 该 函数 ,只 需要 给 它 
提供 数据 框 ,结果 就 呈现 出 散 点 图 和 矩阵 ,如 图 5-3 所 示 。 这 里 ,把 insurance 数据 框 限制 为 
4 个 数据 型 变量 。 








>pairs (insurance[ c ("age", "bmi", "children", "charges") ]) 


0 20000 40000 60000 
1 


es 








上 3 Fs 

age | | bo| 
® 9 oe° 上 8 
: 








on 
0 moomo oo 


bmi | 


50 000505 ommo oo 











children 











charges 


20000 40000 60000 
oro oo 
mo 





























一 ww ce 





图 5-3 利用 函数 pairs() 得 到 的 散 点 图 矩阵 


如 果 要 对 散 点 图 添加 更 多 的 信息 ,那么 它 就 会 更 加 有 用 ,如 图 5-4 所 示 。 一 个 改进 后 的 
散 点 图 矩阵 可 以 用 psych() 包 中 的 pairs. panels() 函数 来 创建 。 在 这 之 前 需要 输入 install. 
packages("psych") 命 令 安装 它 , 并 使 用 library(psych) 命 令 加 载 它 。paris. panels() 函数 使 
用 及 结果 如 下 : 

> instal1.packages ("psych") 


> library (psych) 
>pairs.panels (insurance[ c ("age", "bmi", "children", "charges")]) 
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图 5-4 利用 函数 pairs. panels() 得 到 的 散 点 图 矩阵 


其 中 ,在 对 角 线 上 方 , 散 点 图 被 相关 稀 朴 矩阵 取代 。 对 角 线 上 ,直方 图 描述 了 每 个 特征 
的 数值 分 布 。 对 角 线 下 方 的 散 点 图 带 有 额外 的 可 视 化 信息 。 

第 二 步 : 基于 数据 训练 模型 。 

用 RR 对 数据 拟 合 一 个 线性 回归 模型 ,可 以 使 用 lm() 函数。 


>ins model< - lm(charges~ aget children+ bmi+ sex+ smoker+ region, data= insurance) 


由 于 符号 “. ”可 以 用 来 指定 所 有 的 特征 (不 包括 那些 公式 中 已 经 指定 的 ), 所 以 可 以 执行 
下 面 的 命令 ,达到 前 面 命令 的 效果 。 





> ins model< - lm(charges~ .vdata= insurance) 
> ins model 

Call: 

lm(formula= charges ~ ., data = insurance) 


Coefficients: 
(Intercept) age sexmale bmi 
一 11938.5 256.9 = 339.2 
children smokeryes regionnorthwest regionsoutheast 
475.5 23848.5 -353.0 一 1035.0 
regionsouthwest 
一 960.1 


第 三 步 : 评估 模型 的 性 能 。 
> summary (ins_model) 


Call: 
lm(formla= charges ~ ., data = insurance) 


Residuals: 
Min 1] Median 30 Max 
-11304.9 -2848.1 -982.1 1393.9 29992.8 


Coefficients: 

Estimate Std. Error t value Pr(> |tl) 
(Intercept) -11938.5 987.8 -12.086 <2e-16 *** 
age 256.9 11.9 21.587 <2e-16 *** 
sexmale -3 332.9 -0.394 0.693348 
bmi 339.2 28.6 11.860 <2e-16*** 
children 475.5 137.8 3.451 0.000577 *** 
smokeryes 23848.5 413.1 57.723 <2e-16 *** 
regionnorthwest -353.0 476.3 -0.741 0.458769 
regionsoutheast 一 1035.0 478.7 -2.162 0.030782 * 
regionsouthwest -960.0 477.9 -2.009 0.044765 * 


Ed codas Os ODO 22 02000501 


Residual standard error: 6062 on 1329 degrees of freedom 

Multiple R- squared: 0.7509, Adjusted R- squared: 0.7494 

F- statistic: 500.8 on 8 and 1329 DF, p-value: <2.2e-16 

其 中 : 

中 Residuals( 残 差 ) 部 分 提供 了 预测 误差 的 主要 统计 量 ,其 中 有 一 些 统计 量 明显 是 相当 
大 的 。 由 于 残 差 是 真实 值 减 去 预测 值 ,所 以 最 大 误差 值 29992. 8 表明 该 模型 至 少 对 一 个 案 
例 的 费用 少 预测 了 将 近 3 万 元 。 

@ 星 号 表示 模型 中 每 个 特征 的 预测 能 力 。 其 中 ,三 颗 星 的 出 现 表示 显著 性 水 平 为 0, 这 
意味 着 该 特征 极 不 可 能 是 与 因 变 量 无 关 的 变量 ,而 一 个 通常 的 做 法 就 是 使 用 0. 05 的 显著 性 
水 平 来 表示 统计 意义 上 的 显著 变量 。 





加 多 元 R 方 值 (判定 系数 ) 提 供 了 一 种 度量 模型 性 能 的 方法 , 即 从 整体 上 ,模型 能 多 大 
程度 解释 因 变 量 的 值 。 它 类 似 于 相关 系数 ,因为 它 的 值 越 接 近 于 1. 0, 模 型 解释 数据 的 性 能 
就 越 好 。 

第 四 步 : 提高 模型 的 性 能 。 

在 线性 回归 中 , 自 变量 和 因 变 量 之 间 的 关系 被 假定 为 线性 的 ,然而 这 不 一 定 是 正确 的 。 
例如 ,对 所 有 黏 性 值 而 言 ,年 龄 对 医疗 费用 的 影响 可 能 不 是 恒定 的 ,那么 我 们 可 以 在 模型 中 
添加 非 线 性 年 龄 。 


> insurance$ age2<- insuranceSage^2 

也 可 以 将 一 个 数值 型 变量 转换 成 为 一 个 二 进 制 指标 (此 处 是 对 肥胖 创建 了 一 个 指标 ) 。 
>insurance$ bmi30<-ifelse(insurance$ bmi>=30,1,0) 

如 果 我 们 再 指定 肥胖 和 吸烟 之 间 的 相互 作用 ,将 这 三 种 改进 总 结 一 下 可 以 得 到 : 


>ins_ model2<- lm(charges~ age+ childrent bmit sex+bmi30* smoker+ regiony 
data= insurance) 
> summary (ins_mode12) 


Call: 
lm(formula= charges ~ age +children +bmi +sex +bmi30 * smoker+ 
region, data = insurance) 


Residuals: 
Min 18& Median 30 Max 
-18234.3 -1826.1 -1251.6 -447.5 24803.9 


Coefficients: 

Estimate Std. Error t value Pr(> |t|) 
(Intercept) 一 4745.546 959.685 一 4.945 8.59e- 07 *** 
age 263.242 8.805 29.897 <2e-16 *** 
children 520.402 101.958 5.104 3.81le 一 07 ***# 
bmi 115.035 34.560 3.329 0.000897 *** 
sexmale -491.179 246.563 -1.992 0.046565 * 
bmi30 -865.057 425.775 -2.032 0.042381 * 
smokeryes 13402.363 443.910 30.192 <2e-16 *** 


regionnorthwest -266.836 352.410 -0.757 0.449079 
regionsoutheast 一 825.000 354.800 一 2.325 0.020209 * 
regionsouthwest -1224.315 353.684 一 3.462 0.000554 *** 
bmi30:smokeryes 19794.852 610.092 32.446 <2e-16 *** 


Signif., codes: OQ "*## "0-001 "xx 0.01 0-05 0.1 "1 


Residual standard error: 4485 on 1327 degrees of freedom 
Multiple R- squared: 0.8639, Rdjusted R- squared: 0.8628 
E- statistic: 842.1 on 10 and 1327 DF, p-value: <2.2e- 16 

第 五 步 : 理解 回归 树 和 模型 树 。 

用 于 数值 预测 的 有 两 类 决策 树 : 回归 树 和 模型 树 。 


>tee<-c(l,1,1,2,2,3,4,5,5,6,6,7,7,7,7) 

>atl<-c(l,1,1,2,2,3,4,5,5) 

>at2<-c(6,6,7,7,7,7) 

>btl<-c(1,1,1,2,2,3,4) 

>bt2<-c(5,5,6,6,7,7,7,7) 

>sdr a<- sd(tee)- (length (at1) /length (tee)* sd(at1)+ length (at2)/ 

length (tee)* sd(at2)) 

>sdr b<- sd(tee)- (length (bt1) /length (tee)* sd(bt1)+1length (bt2)/ 

length (tee)* sd(bt2)) 

>sdr a 

[1] 1.202815 

>sdr b 

[1] 1.392751 

关于 A 的 分 割 的 SDR 值 大 约 为 1.2, 关 于 B 的 分 割 的 SDR 值 大 约 为 1.4。 由 于 对 特征 
B, 标 准 差 减 少 得 更 多 ,所 以 决策 树 将 首先 使 用 特征 B, 它 产生 了 比特 征 A 更 多 的 一 致 性 ( 均 
匀 性 ) 集 合 。 

回归 树 和 模型 树 是 有 一 定 差异 的 ,我 们 将 在 5. 5 节 中 应 用 实例 进行 学 习 。 


5.3 逻辑 回归 分 析 


逻辑 回归 (Logistic) 属 于 广义 回归 模型 ,根据 因 变 量 的 类 型 和 服从 的 分 布 可 以 分 为 普通 
多 元 线性 回归 模型 和 人 敢 辑 回归 。 


5.3.1 逻辑 回归 模型 


逻辑 回归 是 指 因 变 量 是 离散 的 并 且 取 值 范围 为 {0,1} 两 类 ,如 果 离 散 变量 取 值 是 多 项 即 
变 为 multi-class classification ,那么 LR 模型 是 一 个 二 分 类 模型 ,可 以 用 来 做 CTR 预测 。 

逻辑 回归 一 般 的 数学 公式 是 

3 一 1/(1 十 e^ 一 (ea 十 记 X1 十 2 X2 十 加 X3 十 …)) 

其 中 ,y 是 响应 变量 ; a 和 46 是 数字 常量 系数 。 

glm() 函 数 在 逻辑 回归 中 的 基本 语法 是 glm(formula,data,family)。 其 中 ,formula 是 
呈现 所 述 变 量 之 间 关 系 的 标识 ; data 在 数据 集 给 出 这 些 变量 的 值 ; family 为 R 对 象 以 指定 
模型 的 细节 , 它 的 值 是 二 项 分 布 逻辑 回归 。 


5.3.2 逻辑 回归 分 析 R 案例 


【 例 5-2】 运用 射门 命中 的 数据 进行 逻辑 分 析 。 对 球员 来 说 ,每 次 射门 是 否 进 球 都 有 
一 定 的 概率 。 这 个 概率 与 射门 的 距离 有 关 , 离 球门 区 越 近 , 越 可 能 进 球 。 我 们 尝试 用 逮 辑 回 
归 度 量 这 种 关系 。 先 载 人 数据 ,创建 进 球 与 否 的 二 分 变量 。 


> instal1.packages ("nutshel1") 
> library (nutshel1) 

>data (field.goals) 

> field.goals.forlr<-transform(field.goals,good- as.factor (ifelse 
(play.type== "FG good", "good" "bad") )) 





让 我 们 看 看 根据 距离 计算 的 进 球 比 例 ,这 里 用 了 table 函数 。 


>field.goals.table<— table (field.goals.forlr$ good,field.goals.forlr$ yards) 
field.goals.table 


18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
Sed 0 和 67 
good 1 12 24 28 24 29 30 18 27 22 26 32 22 21 30 31 21 25 20 23 29 35 27 


41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 
bad 5 611 5 S922NW 9 5 W312 .1 
good 32 211524161526181411 91210 2 1 3 0 1 0 0 0 0 


还 可 以 用 图 形 来 展示 结果 ,如 图 5-5 所 示 。 


>plot (colnames (field.goals.table), 

+ field.goals.table["good",]/ 

+ (field.goals.table[ "bad", ]+ field.goals.table["good",])， 
+ xlab= "Distance (Yards)",ylab="Percent Good") 





Percent Good 
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40 50 60 
Distance(Yards) 


图 5-5 进 球 比例 图 形 结果 
如 图 5-5 所 示 , 当 射门 距离 为 25 一 55 时 , 进 球 百 分 比 是 随 距 离 的 增加 而 线性 下 降 的 。 


每 一 次 投篮 可 以 认为 是 贝 努 利 试验 , 场 上 每 个 位 置 进 球 的 数量 都 服从 二 项 分 布 。 因 此 
在 使 用 广义 线性 回归 模型 glm 时 需要 指定 family 王 "binomial" 。 


>field.goals.mdl< -glm(formla= good~ yards, data= field.goals.forlr, family= "binomial") 


就 像 Im() 函数 一 样 ,glm() 函 数 默 认 是 不 返回 任何 结果 的 ,需要 通过 print 方法 来 展示 
结果 以 及 模型 拟 合 情 况 。 


>field.goals.mdl 
Call: glm(formla= good~ yards, family= "binomial", data = field.goals.forlr) 





Coefficients: 


(Intercept) yards 
5.17886 一 0.09726 
Degrees of Freedom: 981 Total (i.e. Null); 980 Residual 
Null Deviance: 978.9 
Residual Deviance: 861.2 AIC: 865.2 


也 可 以 像 Im() 函数 那样 使 用 summary() 函数 来 获得 更 多 的 信息 。 
> summary (field.goals.mdl1) 


Call: 
glm(formula = good~ yards, family= "binomial", data = field.goals.forlr) 


Deviance Residuals: 
Min lQ Median 30 Max 
-2.5582 0.2916 0.4664 0.6978 1.3789 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) 5.178856 0.416201 12.443 <2e-16 *** 
yards 一 0.097261 0.009892 -9.832 <2e-16 *** 


Signif. codes: 0 '***# 1 0.001 '*#* "0.01 '* "0.05' .0.1 "1 
(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 978.90 on 981 degrees of freedom 
Residual deviance: 861.22 on 980 degrees of freedom 
AIC: 865.22 
Number of Fisher Scoring iterations: 5 
可 以 查看 一 下 这 个 模型 和 数据 的 效果 如 何 , 首 先 将 进 球 数据 绘制 出 来 。 


>Plot (colnames (field.goals.table), 

+field.goals.table[ "good", ]/ 

+ (field.goals.table[ "bad", ]+ field.goals.table[ "good",]), 
+xlab= "Distance (Yards) ", ylab= "Percent Good") 


接着 在 图 形 上 画 一 条 直线 ,表示 在 每 个 点 上 估计 的 进 球 概率 值 。 我 们 会 构建 一 个 计算 
概率 的 函数 ,并 把 刚才 说 的 曲线 绘制 到 图 形 上 ,如 图 5-6 所 示 。 


> fg.prob< - function (Y) { 

+eta< 一 5.178856+ 一 0.097261* y; 
+1/(ltexp(-eta)) 

+} 

>1lines (15:65, fg.prob (15:65) ,new= TRUE) 


5.4 线性 判别 分 析 


判别 分 析 就 是 根据 已 掌握 的 每 个 类 别 样本 的 数据 信息 ,总 结 出 客观 事物 分 类 的 规律 , 建 
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图 5-6 数据 进行 拟 合 后 的 进 球 比例 图 形 
立 判 别 公 式 和 判别 准则 。 在 遇 到 新 的 样本 点 时 ,再 根据 总 结 出 来 的 判别 公式 和 判别 准则 来 
判断 该 样本 点 所 属 的 类 别 。 判 别 分 析 包 括 线性 表 判 别 分 析 、` 朴 素 贝 叶 斯 分 类 距离 判别 等 。 


5.4.1 线性 判别 分 析 原 理 


判别 分 析 又 称 分 辨 法 ,是 在 分 类 确定 的 条 件 下 ,根据 某 一 研究 对 象 的 各 种 特征 值 判别 其 
类 型 归属 问题 的 一 种 多 变量 统计 分 析 方 法 。 其 基本 原理 是 按照 一 定 的 判别 准则 ,建立 一 个 
或 多 个 判别 函数 ,用 研究 对 象 的 大 量 资料 确定 判别 函数 中 的 待定 系数 ,并 计算 判别 指标 , 据 
此 即 可 确定 某 一 样本 属于 何 类 。 当 得 到 一 个 新 的 样品 数据 ,要 确定 该 样品 属于 已 知 类 型 中 
哪 一 类 时 ,这 类 问题 属于 判别 分 析 问题 。 

下 面 通 过 一 个 图 示 的 例子 说 明 线 性 判别 分 析 模 型 的 原理 。 图 5-7 所 示 为 原始 数据 图 及 
线性 判别 分 析 后 的 数据 图 。 

















图 5-7 原始 数据 图 及 线性 判别 分 析 后 的 数据 图 


从 图 5-7 中 可 以 看 到 两 个 类 别 : 一 个 Ci 类 别 , 一 个 Cs 类 别 。 图 5-7(a) 是 两 个 类 别 的 
原始 数据 ,现在 要 求 将 数据 从 二 维 降 维 到 一 维 。 直 接 投 影 到 xz, 轴 或 者 zs 轴 , 不 同类 别 之 间 
会 有 重复 ,导致 分 类 效果 下 降 。 图 5-7(b) 映 射 到 的 直线 就 是 用 LDA 方法 计算 得 到 的 ,可 以 





看 到 ,Ci 类 别 和 C; 类 别 在 映射 之 后 之 间 的 距离 是 最 大 的 ,而且 每 个 类 别 内 部 点 的 离散 程度 
是 最 小 的 (或 者 说 聚集 程度 是 最 大 的 ) 。 


5.4.2 线性 判别 分 析 R 案例 


下 面 以 miete 数据 集 为 例 进行 线性 判别 分 析 。MASS 包 是 Modern Applied Statistics 
with S 的 缩写 , 即 S 语言 在 现代 统计 学 中 的 应 用 。 

第 一 步 : 收集 数据 和 数据 预 处 理 。 

首先 需 加 载 程序 包 ,还 需 加 载 程序 包 magrittr, 并 获取 kknn 包 中 的 miete 数据 集 。 


>1library (kknn) 
>data (miete) 
>head (miete)[1:3,] 

nm wfl bj bad0 zh ww0 badkach fenster kueche mvdauer bjkat wflkat 
1693.29 501971.5 0 1 0 0 0 0 2 4 1 
2736.60 701971.5 0 1 0 0 0 0 26 4 汉 
3732.23 5010.5 © 0 0 0 0 1 4 时 


nmqm rooms nmkat adr wohn 
1 13.86580 3 :2 2 
2 10.52286 3 误 ” 次 2 
3 14.64460 E 4 娄 
>dim(miete) | 


[1] 1082 17 | on 
运用 summary() 函 数 来 观察 一 下 miete 数据 集 的 基本 信息 。 
| 
> summary (miete) 
nm wfl bj bad0 zh wwO 
Min. :127.1 Min. :20.00 Min. :1800 0:1051 0:202 0:1022 


1lstQu.: 543.6 lstQu.: 50.25 lstQu.:1934 1: 31 1:880 1: 60 

Median : 746.0 Median : 67.00 Median :1957 

Mean :830.3 Mean :69.13 Mean :1947 

3rd Qu.:1030.0 3rd Qu.: 84.00 3rd Qu.:1972 

Max. :3130.0 Max. :250.00 Max. :1992 

badkach fenster kueche mvdauer bjkat wflkat nmam 

0:446 0:1024 0:980 Min. :0.00 1:218 1:271 Min. :1.573 

1:636 1: 58 1:102 lstQu.: 2.00 2:154 2:513 lst Qu.: 8.864 
Median : 6.00 3:341 3:298 Median :12.041 


Mean :10.63 4:226 Mean :12.647 

3rdQu.:17.00 5: 79 3rd Qu.:16.135 

Max. :82.00 6: 64 Max. :35.245 
rooms nmkat adr wohn 


Min. :1.000 1:219 1: 25 1: 90 
lst Qu.:2.000 2:230 2:1035 2:673 
Median :3.000 3:210 3: 22 3:319 
Mean :2.635 4:208 

3rd Qu.:3.000 5:215 

Max. :9.000 


下 面 按照 训练 集 占 数据 总 量 2/3 的 比例 ,计算 每 一 等 级 中 应 抽取 的 样本 量 。 





> library (sampling) 

>n= round (2/3* nrow (miete)/5) 
>n 

[1] 144 


现在 需要 以 nmkat 变量 的 5 个 等 级 划分 层次 ,进行 分 层 抽样 。 


>sub train= strata (miete, stratanames= "nmkat", size= rep (n,5) ,method= "srswor") 
>head (sub train) 


nmkat ID unit Prob stratum 
主 3 1 0.6857143 和 
3 2 0.6857143 Ee 
3 3 3 0.6857143 
8 3 8 0.6857143 1 
16 3 16 0.6857143 EE 
20 .3 20 0.6857143 EE 


>data train=getdata (miete[ ,c(-1,-3,-12)],sub train$ ID unit) 

>data test=getdata (miete[ ,c(-1,-3,-12)],- sub train$ ID unit) 

>dim(data train) ;dim(data test) 

[1 720 14 

[1] 362 14 

>head (data test)[1:3,] 

WEl bad0 zh ww0 badkach fenster kueche mvdauer bjkat nmqgm rooms nmkat adr 


11 75 0 1 0 1 0 和 3: 6 16.504533 k 于 胀 -入 县 
14 71 0 1 0 入 0 入 3 6 16.670704 等 每， 效 
15 8: 0 有 0 1 0 0 4 4 9.164516 最 二， 交 
wohn 
11 2 
14 2 
15 2 


第 二 步 : 应 用 模型 查看 模型 的 相应 参数 。 
首先 以 公式 格式 执行 线性 判别 ,然后 对 我 们 建立 的 模型 进行 基本 了 解 ,查看 lda() 可 给 


出 的 输出 项 名 称 , 本 次 执行 过 程 中 使 用 的 先 验 概率 以 及 数据 集 data_train 中 各 类 别 的 样本 
量 , 并 计算 出 各 变量 在 每 一 类 别 中 的 均值 。 


> library (MASS) 

>fit ldal=1da (nmkat~ .,data train) 

>names(fit ldal) [1] "prior" "counts" "means" "scaling" "lev" "svd" "N" 
[8] "call" "terms" "xlevels" 

>fit 1dal$ prior 

和 

0.2 0.2 0.2 0.2 0.2 

>fit ldal$ counts 

和 

144 144 144 144 144 

>fit 1dal$ means 

wfl badol zhl ww01 badkachl fensterl kuechel 

154.18750 0.083333333 0.5972222 0.15972222 0.3819444 0.06944444 0.02777778 





2 61.81944 0.027777778 0.8125000 0.04861111 0.5694444 0.06250000 0.07638889 
367.15972 0.020833333 0.8333333 0.04166667 0.4930556 0.03472222 0.06250000 
473.22917 0.013888889 0.9166667 0.01388889 0.7083333 0.03472222 0.08333333 
5 92.52778 0.006944444 ”0.9236111 0.01388889 0.7430556 0.03472222 0.22222222 
mvdauer bjkat.L bjkat.Q bjkat.c bjkat “4 bjkat “5 
115.243056 -0.22244532 -0.12047446 0.06573626 0.16404708 -0.15267315 
2 10.486111 -0.11786282 -0.18639445 -0.02173955 0.24410206 -0.07611785 
3 12.500000 -0.14940358 -0.13411308 0.05434887 0.14829856 -0.06168170 
410.347222 -0.06972167 -0.15457101 -0.04865518 0.13386242 0.01224885 
5 4.958333 -0.07138171 -0.03182344 0.01759868 0.05511982 0.02187294 
mmam rooms adr.L adr.Q wohn.L wohn.Q 
1 8.363631 2.104167 —0.019641855 -0.7654655 0.05401510 -0.3827328 
2 10.901455 2.402778 —0.034373246 - 0.7569604 0.07856742 -0.4422690 
3 12.409342 2.590278 —0.029462783 -0.7654655 0.12276159 -0.3657224 
4 14.533825 2.784722 0.004910464 -0.7909811 0.17186623 -0.3657224 
516.659131 3.347222 0.044194174 -0.7059293 0.28480690 -0.2211345 
下 面 来 观察 输出 判别 分 析 的 各 项 结果 。 
> fit_ldal 
Call: 
lda(nmkat ~ ., data= data train) 
Prior probabilities of groups: 
站 
0.20.20.20.20.2 
Group means: 
wfl bad01 zhl wwOl badkachl fensterl kuechel 
154.18750 0.083333333 0.5972222 0.15972222 0.3819444 0.06944444 0.02777778 
2 61.81944 0.027777778 0.8125000 0.04861111 0.5694444 0.06250000 0.07638889 
3 67.15972 0.020833333 0.8333333 0.04166667 0.4930556 0.03472222 0.06250000 
473.22917 0.013888889 0.9166667 0.01388889 0.7083333 0.03472222 0.08333333 
592.52778 0.006944444 0.9236111 0.01388889 0.7430556 0.03472222 0.22222222 
mmam rooms adr.L adr.Q wohn.L wohn.Q 
1 8.363631 2.104167 -0.019641855 -0.7654655 0.05401510 -0.3827328 
2 10.901455 2.402778 -0.034373246 -0.7569604 0.07856742 -0.4422690 
3 12.409342 2.590278 -0.029462783 -0.7654655 0.12276159 -0.3657224 
414.533825 2.784722 0.004910464 -0.7909811 0.17186623 -0.3657224 
516.659131 3.347222 0.044194174 -0.7059293 0.28480690 -0.2211345 


Coefficients of linear discriminants: 


LD1 


ID2 ID3 


ID4 
wfl 0.067120937 0.01577413 -0.001048643 0.0002127949 
bad01 0.150154524 0.56221168 0.224609374 1.6562154820 
zhl 一 0.023596382 - 0.94947249 -0.203694648 - 0-.6584714471 


wohn.L -0.124553292 0.13325978 -0.664996079 -0.4712985993 
wohn.Q 0.088428884 0.22351361 0.504017920 0.3395011749 
Proportion of trace: 

IDl ID2 ID3 ID4 
0.9707 0.0167 0.0074 0.0052 


使 用 lda() 函 数 建 立 男 一 种 模型 。 


>fit lda2= lda(data train[,-12],data train[ ,12]) 
>fit lqa2 


这 里 输出 判别 分 析 的 各 项 结果 与 fit_ldal 相似 。 
第 三 步 : 作出 模型 图 。 


>plot (fit_ldal) # 对 判别 规则 fit_ldal 输出 图 形 ,如 图 5-8 所 示 
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图 5-8 对 判别 规则 fit_ldal 输出 图 形 


>plot (fit ldal,dimen=1) # 输 出 图 形 如 图 5- 9 所 示 
>plot (fit ldal,dimen=2) # 输 出 图 形 如 图 5- 10 所 示 





groupS 
图 5-9 当 相关 维 数 为 1 时 对 判别 规则 fit_ldal 输出 图 形 


第 四 步 : 对 测试 集 进行 预测 ,观察 预测 结果 。 
首先 使 用 判别 规则 fit_ldal 预测 data_test 中 nmkat 变量 的 类 别 ,然后 输出 各 样本 的 预 


测 结果 ,再 输出 各 样本 属于 每 一 类 别 的 后 验 概率 进行 观察 。 


>Ppre_ldal=predict (fit ldal,data test) 
>pre ldal$ class 
[J]554412312322113223114244232444224212 


[352] 31445141422 
Levels: 12345 
>pre ldal$ posterior 

二 2 3 4 5 
11 8.045299e-06 3.452762e-03 5.717772e-02 3.469401le-01 5.924214e-01 
14 2.022036e-05 6.733636e-03 9.332888e-02 4.456993e-01 4.542180e-01 
1078 1.141648e- 01 6.35411l3e-01 2.103709e-01 4.003920e-02 1.385981le-05 
1081 7.118101e-02 5.511690e-01 2.908978e-01 8.666591le-02 8.619296e-05 


第 五 步 : 评估 预测 结果 。 
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LD2 





图 5-10 ” 当 相 关 维 数 为 2 时 对 判别 规则 fit_ldal 输出 图 形 


评估 预测 结果 时 ,可 以 生成 nmkat 变量 的 预测 值 与 实际 值 的 混淆 矩阵 ,然后 计算 预测 
结果 的 错误 率 。 


>table (data test$ nmkat,pre ldal$ class) 

E 

54 16 3 2 0 

0 5 6 .9 

1 18 34 12 1 

0 0 14 44 6 

4 

>error ldal=sum(as.numeric(as.numeric(pre ldal$ class)! =as.numeric(data test$ nmkat)))/ 
nrow (data test) >error ldal 

[1] 0.3342541 


2 
2 
3 
4 


5.5 应 用 回归 树 和 模型 树 进行 数值 预测 实例 


首先 需要 从 Packt 网 站 上 下 载 whitewines. csv, 用 回归 树 和 模型 树 估计 葡萄酒 的 质量 。 
步骤 仍 与 上 述 医 疗 数据 的 分 析 步 骤 一 致 
第 一 步 : 收集 .探索 和 准备 数据 。 





>wine< -read.csv("D:\ 第 5 章 例题 \whitewines-csv") 
> str (wine) 
"data.frame': 1234 obs. of 12 variables: 





$ fixed.acidity :num 76.38.17.27.28.16.276.38.1 ... 
$ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 ... 
$ citric.acid :num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 … 

$ residual.sugar num 20.71.66.98.58.56.9720.7... 

$ chlorides num 0.045 0.049 0.05 0.058 0.058 0.05 ... 
$ free.sulfur.dioxide num 4514 30 47 47 30 30 45 14 28 ... 

$ total.sulfur.dioxide num 170 132 97 186 186 97 136 170 132 129 ... 
$ density num 1.001 0.994 0.995 0.996 0.996 ... 

$ pH num 33.3 3.26 3.19 3.19 3.26 3.18 3 ... 
$ sulphates num 0.45 0.49 0.44 0.40.40.440.47 

$ alcohol num 8.8 9.510.1 9.9 9.9 10.1 9.6 8.8 … 
$ quality :int 6666666666.… 


>hist (wine$ quality) 
得 到 关于 quality 的 直方 图 ,如 图 5-11 所 示 。 
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图 5-11 利用 函数 hist() 得 到 关于 quality 的 直方 图 


>wine train<—wine[1:1000,] 
>wine test<-wine[1001:1234,] 


第 二 步 : 基于 数据 训练 模型 。 


> library (rpart) 

>m.rpart<— rpart (quality~ .,data=wine train) 
>m.rpart 

n= 1000 





node), split, n, deviance, yval 
* denotes terminal node 


1) root 1000 868.775000 5.865000 
2) alcohol<10.65 715 455.767800 5.644755 
4) volatile.acidity>=0.3025 239 109.087900 5.309623 * 
5) volatile.acidity< 0.3025 476 306.359200 5.813025 
10) sulphates<0.745 453 273.726300 5.763797 
20) citric.acid<0.255 63 29.269840 5.301587 * 
21) citric.acid>=0.255 390 228.823100 5.838462 
42) residual.sugar>=17.622 3.272727 5.181818* 
43) residual .sugar<17.6 368 215.497300 5.877717 
86) free.sulfur.dioxide<13 20 15.200000 5.200000 * 
87) free.sulfur.dioxide>=13 348 190.583300 5.916667 * 
11) sulphates>=0.745 23 9.913043 6.782609* 
3) alcohol>=10.65 285 291.312300 6.417544 
6) free.sulfur.dioxide<11.5 31 35.483870 5.129032 * 
7) free.sulfur.dioxide>=11.5 254 198.078700 6.574803 
14) pH<3.245 109 72.330280 6.183486 
28) density>=0.99345 10 11.600000 5.200000 * 
29) density< 0.99345 99 50.080810 6.282828 * 
15) pH>=3.245 145 96.510340 6.868966 
30) alcohol<11.85 84 39.559520 6.630952 * 
31) alcohol>=11.85 61 45.639340 7.196721 * 


下 面 借助 rpart. plot 包 夯 出 模型 图 ,如 图 5-12、 图 5-13 所 示 。 
>1library (rpart .plot) 


>rpart.plot (m.rpart,digits=3) 
>rpart.plot (m.rpart,digits=4,fallen.]leaves= TRUE, type= 3,extra=101) 
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图 5-12 m. part 模型 决策 树 1 











leohol <10.65 


>= 10.65 
volatile >= 0.3025 free.sul < 11.5 


< 0.3025 >=11.5 


suphate<075 | <0.745 pH <3.245 
>=0.745 >= 3.245 
citric.a < 0.255 density >= 0.9934 |alcohol < 11.85 


>= 0.255 





residual >= 17.6 


free.sul< 13 


图 5-13 m. part 模型 决策 树 2 


第 三 步 : 评估 模型 的 性 能 。 


>p.rpart<- predict (m.rpart,wine test) 

> summary (p.rpart) 
Min. lstQu. Median Mean3rdQu. Max. 
5.129 5.310 5.917 5.898 6.283 7.197 

> summary (wine test$ quality) 
Min. lstQu. Median Mean3rdQu. Max. 
3.000 5.000 6.000 5.838 6.000 8.000 

>cor(p.rpart,wine test$ quality) 

[1] 0.439142 

>MAE< - function (actual, predicted) { 

+mean (abs (actual-predicted) ) 

+} 

>MAE (p.rpart,wine test$ quality) 

[1] 0.6947485 

>mean (wine test$ quality) 

[1] 5.837607 

>MAE (5.87,wine test$ quality) 

[2] 0.7650427 





第 四 步 : 提高 模型 的 性 能 。 


> library (RWeka) 

>m.m5p< -M5P (quality~ .,data=wine train) 
>m.m5psurmary (m.m5p) 

M5 pruned model tree: 

(using smoothed linear models) 


alcohol <= 10.65 : IM] (715/76.615% ) 

alcohol > 10.65: 

| free.sulfur.dioxide <= 17.5 : IM2 (60/108.036% ) 
| free.sulfur.dioxide > 17.5 : IM3 (225/79.476% ) 


IMnum: 1 

qality= 
0.1425 * fixed.acidity 
-2.4897 * volatile.acidity 
+0.041 * residual.sugar 
+0.0001 * free.sulfur.dioxide 
-108.9812 * density 
+1.0638 * pH 
+1.5482 * sulphates 
+109.3828 


IMnum: 2 

qality= 
0.0833 * fixed.acidity 
-1.8468 * volatile.acidity 
+0.0313 * residual.sugar 
-2.2223 * _ chlorides 
+0.0872 * free.sulfur.dioxide 
-105.2311 * density 
+0.5875 * pH 
+0.3885 * sulphates 
—0.0414 * alcohol 
+107.4644 


IMnum: 3 

qality= 
0.4753 * fixed.acidity 
-0.0851 * volatile.acidity 
+0.1492 * residual.sugar 
—8.3501 * chlorides 
+0.0015 * free.sulfur.dioxide 
-471.1233 * density 
+3.1386 * pH 
+1.2409 * sulphates 


-0.215 * _ alcohol 
十 462.0288 


Number of Rules : 3 


> summary (m.m5p) 


=== Summary === 

Correlation coefficient 0.6062 

Mean absolute error 0.5867 

Root mean squared error 0.7414 

Relative absolute error 81.7872 % 

Root relative squared error 79.5376 $% 
Total Number of Instances 1000 


优化 模型 后 进行 预测 并 观察 预测 结果 。 


>p.m5p< -Predict (m.m5p,wine test) 
> summary (p.m5p) 
Min. lst Qu. Median Mean 3rd Qu. Max. 
4.468 5.472 5.794 5.859 6.169 7.343 
>cor(p.m5p,wine test$ quality) 
[1] 0.4904937 
>MAE (wine test$ quality,p.m5p) 
[1] 0.6837322 


小 结 


在 本 章 中 着 重 讲解 了 对 数值 型 数据 建 模 的 三 种 方法 : 第 一 种 方法 是 多 元 线性 回归 , 设 
计 用 直线 拟 合 数 据 。 第 二 种 方法 是 逻辑 回归 ,是 广义 线性 回归 模型 的 特例 ,利用 Logistic 函 
数 将 因 变 量 的 取 值 范围 控制 在 0 和 1 之 间 , 表 示 取 值 为 1 的 概率 。 第 三 种 方法 是 线性 判别 
分 析 , 根 据 已 掌握 的 每 个 类 别 样本 的 数据 信息 ,总 结 出 客观 事物 分 类 的 规律 性 ,建立 判别 公 
式 和 判别 准则 。 在 多 元 线性 回归 分 析 中 ,涉及 使 用 决策 树 的 回归 树 和 模型 树 进行 数值 预测 。 

采用 多 元 线性 回归 模型 为 不 同 阶层 的 人 群 计算 预期 医疗 费用 。 因 为 特征 和 变量 之 间 的 
关系 可 以 用 所 估计 的 回归 模型 描述 ,所 以 我 们 能 够 确认 某 些 人 口 统计 数据 ,比如 吸烟 者 和 肥 
胖 者 ,可 能 需要 以 要 价 更 高 的 保险 率 来 支付 高 于 平均 水 平 的 医疗 费用 。 

采用 浊 辑 回归 模型 为 每 一 次 投篮 都 为 贝 努 利 试验 时 ,命中 射门 的 数据 。 由 于 命中 射门 
的 概率 与 射门 的 距离 有 关 , 离 球门 越 近 , 越 可 能 进 球 , 所 以 我 们 通过 逮 辑 回归 关系 来 研究 随 
着 距离 的 变化 , 进 球 百分比 的 变化 。 

使 用 线性 判别 方法 来 分 析 kknn 里 面 的 miete 数据 集 ,观察 执行 过 程 中 所 使 用 的 先 验 概 
率 ,运用 MASS 包 里 面 的 lda() 函数 以 公式 格式 执行 线性 判别 ,然后 再 观察 分 析 结 果 中 的 参数 
Group means、Coefficients of linear discriminants 等 ,再 画 出 模型 图 便于 观察 对 比 , 最 后 进 




















行 预测 观察 结果 ,并 优化 模型 提醒 性 能 。 

回归 树 和 模型 树 用 来 根据 葡萄 酒 可 测量 特性 ,对 葡萄 酒 的 主管 质量 进行 建 模 。 在 此 过 
程 中 ,我 们 学 习 了 回归 树 如 何 提供 一 种 简单 的 方法 来 解释 特征 的 数值 结果 之 间 的 关系 ,但 是 
更 复杂 的 模型 树 可 能 会 更 精确 。 此 外 ,在 上 述 过 程 中 ,同时 也 学 会 了 用 几 种 方法 来 估计 数值 
模型 的 性 能 。 





线性 分 类 方法 综述 与 评价 准 多 元 线性 回归 分 析 十 Logistic 线性 判别 分 析 十 实验 例子 
则 . mp4(21.7MB) 分 析 . mp4(36. 9MB) .mp4(25. 8MB) 


习 题 


(1) 线性 分 类 方法 主要 有 、 、 等 。 

(2) 对 分 类 方法 进行 评价 的 方法 有 等 。 

(3) 下 列 能 获取 有 关 数 据 直 方 图 的 函数 是 ( ) ,获取 散 点 图 矩阵 的 函数 是 ( Ws 
A. hist() B. plot() C. pairs. panels() 

(4) 解决 分 类 方法 的 一 般 步骤 是 什么 ? 

(5) 简 述 多 元 线性 回归 的 概念 及 原理 。 

(6) 简 述 Logistic 回归 的 概念 及 原理 。 

(7) 简 述 线性 判别 分 析 的 概念 及 原理 。 

(8) 评估 模型 性 能 时 所 用 到 的 summary() 函数 需 注意 观察 哪些 参数 ? 

(9) 尝试 可 用 线性 分 类 方法 中 的 哪 种 方法 来 预测 这 组 威斯康星 数据 中 肿瘤 是 良性 还 是 








【内 容 摘要 】 分 类 是 数据 挖掘 中 的 一 个 重要 内 容 , 用 于 把 具有 某 些 共 同 点 或 相似 特征 
的 事物 归属 于 一 个 不 确定 集合 的 多 辑 方法 。 在 本 章 中 ,阐释 了 分 类 的 基本 原理 和 应 用 场景 ， 
详细 介绍 了 -近邻 、 贝 叶 斯 分 类 等 传统 的 分 类 算法 ,以 及 比较 前 沿 的 神经 网 络 与 深度 学 习 、 
支持 向 量 机 分 类 算法 。 

【学 习 目标 】 在 了 解 分 类 思想 的 基础 上 ,理解 大 数据 中 的 分 类 算法 ,掌握 常用 的 K- 近 
邻 . 贝 叶 斯 分 类 算法 的 原理 ,了 解 神经 网 络 与 深度 学 习 、 支 持 向 量 机 分 类 算法 ,分 析 不 同 算法 
的 特点 ,学 会 各 类 方法 在 R 语言 中 的 应 用 。 

















6.1 分 类 方法 概要 


基于 人 工 智能 和 信息 系统 ,抽象 层次 上 的 分 类 是 推理 学习、 决策 的 关键 ,是 一 种 基础 知 
识 。 因 而 数据 分 类 技术 可 视 为 数据 挖掘 中 的 基础 和 核心 技术 ,在 数据 挖掘 中 被 广泛 使 用 。 
因此 ,在 数据 挖掘 技术 的 研究 中 ,分 类 技术 的 研究 应 当 处 在 首要 和 优先 的 地 位 。 


6.1.1 分 类 的 基本 原理 


分 类 是 通过 学 习 得 到 一 个 分 类 模型 (常常 称 作 分 类 器 ) ,把 数据 库 中 的 数据 项 映射 到 给 
定 类 别 中 的 某 一 个 的 过 程 ,可 用 于 提取 描述 重要 数据 类 的 模型 或 预测 未 来 的 数据 趋势 。 分 
类 有 两 个 过 程 : 第 一 个 过 程 是 形成 分 类 器 ,第 二 个 过 程 是 通过 分 类 器 把 数据 分 类 。 

1. 分 类 模型 描述 

形成 分 类 器 作为 分 类 的 第 一 个 阶段 ,创建 一 个 分 类 模型 .用 来 描述 预先 定义 的 样本 数据 
集 。 这 是 一 个 学 习 的 过 程 , 把 这 个 过 程 称 为 学 习 阶 段 。 输 入 数据 或 称 训练 集 是 一 条 条 记录 
组 成 的 ,每 一 条 记录 包含 若干 条 属性 ,组 成 一 个 特征 向 量 。 训 练 集 的 每 条 记录 还 有 一 个 特定 
的 类 标签 与 之 对 应 ,该 类 标签 是 系统 的 输入 ,通常 是 以 往 的 一 些 经 验 数 据 。 一 个 具体 样本 的 
特征 向 量 可 为 (Wi ,V:,V,:c)。 在 这 里 V, 表示 字段 值 ; c 表示 类 别 。 在 这 一 阶段 ,每 个 
训练 元 组 的 类 标号 是 被 告知 的 。 形 成 模式 这 一 阶段 是 在 被 监督 下 进行 的 ,因此 叫 作 监督 
学 习 。 

利用 分 类 模型 把 数据 集合 中 的 数据 分 类 ,这 个 阶段 通常 也 被 认为 是 学 习 映 射 , 被 叫 作 函 
数 。 例 如 在 银行 贷款 中 ,在 大 量 的 贷款 者 中 抽取 部 分 数据 作为 样本 数据 集 ,形成 分 类 模型 。 
根据 模型 判断 申请 贷款 者 是 否 存在 危险 ,降低 银行 的 风险 。 

2. 使 用 模型 进行 分 类 

在 这 一 阶段 ,主要 是 评估 分 类 器 的 预测 是 否 准 确 , 起 到 了 至 关 重 要 的 作用 。 由 于 在 学 习 





期 间 , 训 练 元 组 中 的 一 些 噪声 数据 空缺 的 数据 导致 分 类 器 产生 异常 ,出 现 过 分 拟 合 现象 。 
为 了 解决 这 个 问题 ,产生 了 独立 区 别 于 训练 元 组 的 检验 集 , 用 来 检验 模型 是 否 异常 。 检 验 集 
由 检验 元 组 和 类 标号 组 成 。 想 要 达到 比较 乐观 和 满意 的 评估 ,通常 利用 样本 集合 来 度量 分 
类 器 的 准确 率 。 把 检验 元 组 的 类 标号 与 使 用 分 类 模型 的 类 预测 进行 比较 。 如 果 数 据 样本 集 
中 的 分 类 模型 的 准确 率 满 足 要 求 ,那么 就 能 够 通过 前 一 阶段 形成 的 模型 来 对 大 量 的 数据 进 
行 分 类 。 例 如 ,可 以 通过 分 析 先 前 的 贷款 申请 数据 总 结 得 到 分 类 规则 ,然后 根据 规则 对 新 的 
贷款 申请 人 批准 或 拒绝 。 
6.1.2 主要 分 类 方法 

分 类 任务 就 是 确定 对 象 属于 哪个 预定 义 的 目标 类 。 分 类 问题 是 一 个 普遍 存在 的 问题 ， 
有 许多 不 同 的 应 用 。 例 如 ,根据 客户 类 别 分析 对 银行 贷款 进行 风险 评估 ,根据 不 同 消费 者 欲 
望 与 需求 进行 市 场 细 分 ,通过 对 客户 特征 的 分 类 帮助 呼叫 中 心 了 解 不 同行 为 类 别 客户 的 分 
布 特征 ,文献 检索 和 搜索 引擎 中 的 自动 文本 分 类 技术 ,安全 领域 中 基于 分 类 技术 的 入 侵 检 


测 等 。 
随 着 应 用 的 广泛 深入 ,分 类 方法 层出不穷 ,主要 数据 分 类 技术 如 下 。 
1. 决策 树 


决策 树 是 常用 的 分 类 方法 之 一 , 较 早 被 应 用 于 数据 挖掘 中 的 分 类 问题 。 它 是 一 种 树 形 
结构 ,其 每 一 个 内 部 节点 表示 在 一 个 属性 上 的 测试 ,并 且 该 节点 的 每 个 后 继 分 支 与 该 属性 的 
一 个 可 能 值 相对 应 。 每 个 叶子 节点 表示 类 或 类 分 布 , 树 的 最 顶层 节点 为 根 节点 。 分 类 实例 
的 方法 采用 自 顶 向 下 的 递归 式 , 在 决策 树 的 内 部 节点 可 得 到 该 实例 的 类 别 。 

2. K- 近 邻 法 (K-Nearest Neighbor, KNN) 

该 算法 的 思想 是 通过 寻找 事物 属性 上 的 相似 点 去 揣测 类 别 上 的 相同 ,简单 来 说 就 是 类 
比 法 。K- 近 邻 法 从 训练 数据 集 里 面 找 出 和 待 分 类 的 数据 对 象 最 相近 的 个 对 象 。 这 下 个 
对 象 中 出 现 次 数 最 多 的 那个 类 别 ,就 可 以 被 当 作 这 个 待 分 类 的 数据 对 象 的 类 别 。 例 如 ,我们 
对 一 个 植物 样本 进行 分 类 的 时 候 , 通 过 对 比 这 个 样本 和 实验 室 的 标本 之 间 的 各 个 特征 ,例如 
长 度 , 直径 .颜色 等 属性 ,然后 找到 最 相似 的 几 个 标本 。 这 几 个 标本 的 类 别 就 应 该 是 我 们 手 上 
这 个 植物 样本 的 类 别 。 如 果 这 几 个 标本 的 类 别 不 同 ,我 们 取 里 面 出 现 次 数 最 多 的 那个 类 别 。 

3. 朴素 贝 叶 斯 法 (Naive Bayes) 

通过 贝 叶 斯 定律 来 进行 分 类 。 朴 素 贝 叶 斯 将 数据 的 属性 和 数据 的 类 别 看 作 两 个 随机 变 
量 (X 和 Y) ,然后 问题 成 为 找 出 一 个 给 定 属性 X, 哪 个 Y 出 现 的 概率 最 大 ,也 就 是 贝 叶 斯 定 
律 中 的 后 验 概 率 PCY|X)。 在 贝 叶 斯 定律 里 面 ,一 个 数据 的 产生 ,是 有 了 这 个 数据 的 类 别 ， 
然后 再 产生 这 个 数据 的 各 个 属性 。 因 此 ,P(Y)? 被 叫 作 先 验 概 率 。 给 定 了 数据 的 属性 ,再 反 
过 来 推测 其 类 别 就 是 后 验 概率 P(Y|X)。 根 据 贝 叶 斯 定律 ,后 验 概率 可 以 由 先 验 概率 和 条 
件 概 率 计算 出 来 ,而 先 验 概率 和 条 件 概率 可 以 由 训练 数据 统计 而 得 。 朴 素 贝 叶 斯 之 所 以 叫 
朴素 ,因为 这 个 算法 假设 给 定数 据 对 象 的 类 别 Y, 不 同属 性 的 出 现 是 互相 独立 的 。 

4. 神经 网 络 (Neural Networks) 

神经 网 络 分 类 算法 的 重点 是 构造 阔 值 逻辑 单元 ,一 个 阔 值 逻辑 单元 是 一 个 对 象 , 它 可 以 
输入 一 组 加 权 系 数 的 量 ,对 它们 进行 求 和 ,如 果 这 个 和 达到 或 者 超过 了 某 个 阔 值 ,输出 一 个 
量 。 神 经 网 络 是 基于 经 验 风险 最 小 化 原则 的 学 习 算 法 ,有 一 些 固有 的 缺陷 ,比如 层 数 和 神经 


元 个 数 难以 确定 ,容易 陷入 局 部 极 小 ,还 有 过 学 习 现 象 。 

5. 支持 向 量 机 法 (Support Vector Machine,SVM) 

近年 来 使 用 得 最 广 的 分 类 算法 ,因为 它 在 高 维 数据 ,例如 图 像 和 文本 上 的 表现 都 好 过 其 
他 很 多 算法 。 与 Naive Bayes 不 同 之 处 在 于 , 它 不 关心 这 个 数据 是 如 何 产 生 的 , 它 只 关心 如 
何 区 分 这 个 数据 的 类 别 , 所 以 大 家 也 称 这 种 分 类 算法 是 discriminative 的 。 在 SVM 算法 
内 ,任何 一 个 数据 都 被 表示 成 一 个 向 量 , 也 就 是 高 维 空间 的 一 个 点 ,每 个 属性 代表 一 个 维度 。 
SVM 和 大 多 数 分 类 算法 一 样 ,假设 如 果 一 维 数据 的 类 别 相同 ,那么 它们 的 其 他 属性 值 也 应 
该 相近 。 因 此 ,高 维 空间 上 不 同 的 类 别 数据 应 该 处 于 不 同 的 空间 区 域 。SVM 的 训练 算法 就 
是 找 出 区 分 这 几 个 区 域 的 空间 分 界面 。 能 找到 的 分 界面 可 能 有 很 多 个 ,SVM 算法 选择 两 个 
区 域 之 间 最 靠近 正中 间 的 那个 分 界面 ,或 者 说 离 几 个 区 域 都 最 远 的 那个 分 界面 (maximum- 
margin hyperplane) 。 现 实数 据 可 能 是 有 噪声 的 。 有 了 噪声 ,一 个 数据 可 能 会 在 观测 空间 位 
置 的 周围 区 域 都 出 现 。 离 几 个 区 域 最 远 的 那个 分 界面 能 够 尽量 保证 有 噪声 的 数据 点 不 至 于 
从 区 域 跳 到 另外 一 个 区 域 去 。 这 个 最 佳 的 分 界面 的 寻找 问题 在 SVM 中 表示 成 一 个 有 约束 
的 优化 问题 (Constrained Optimization) ,通过 优化 算法 里 的 拉 格 朗 日 法 可 以 求 得 这 个 最 优 
的 分 界面 。 


6.1.3 分 类 器 性 能 评价 标准 


由 于 通过 训练 集 产生 的 分 类 模型 未 必 是 最 佳 的 ,导致 对 测试 集 的 分 类 可 能 产生 错误 。 
而 人 们 希望 尽量 得 到 分 类 性 能 最 佳 的 模型 ,这 使 得 对 分 类 器 性 能 评价 至 关 重 要 。 下 面 介 绍 
一 些 常 用 的 评价 标准 。 

1. 分 类 准确 率 

分 类 准确 率 是 指 分 类 模型 正确 地 预测 新 数据 类 标签 的 能 力 。 定 义 : 对 于 分 类 器 下 ,用 
Fc 表示 分 类 准确 率 , 则 Fe 一 PCCF(z zz) 一 CCz…yz)), 其 中 忧 ,…,zw 是 任意 一 
个 例子 记录 ,Ce (zi ,…,z,) 是 分 类 器 的 分 类 结果 ,而 C(xzi,…,z,) 是 真正 的 结果 。 影 响 分 类 
准确 率 的 因素 有 训练 数据 集 记 录 的 数目 、 属 性 的 数目 、 属 性 的 信息 、 测 试 数据 集 记录 的 分 布 

2. 计算 复杂 度 

计算 复杂 度 决定 算法 执行 的 速度 和 占用 的 资源 , 它 依赖 于 具体 的 实现 细节 和 软 硬 件 环 
境 。 实 际 分 类 过 程 中 的 对 象 通常 是 海量 的 数据 库 , 因 而 空间 和 时 间 的 复杂 度 是 非常 重要 的 
问题 。 

3. 稳定 性 

一 个 分 类 模型 的 稳定 性 是 指 它 有 没有 随 着 数据 的 变化 而 剧烈 变化 。 

4. 鲁 棒 性 

鲁 棒 性 是 指 在 数据 集中 含有 噪声 和 丢失 值 的 情况 下 ,分 类 器 正确 分 类 数据 的 能 力 。 

5. 分 类 代价 

分 类 代价 是 指 分 类 预测 错误 所 产生 的 计算 代价 。 

事实 上 ,对 于 一 个 特定 问题 ,如 何 从 众多 的 分 类 器 中 选择 一 个 合适 的 ,目前 现存 的 分 类 
器 性 能 评价 还 没有 统一 的 标准 ,必须 依赖 于 问题 .数据 的 特征 来 选择 。 同 时 ,这 些 分 类 器 评 
价 标准 的 理论 还 不 能 对 实践 结果 做 出 合理 的 解释 ,很 多 时 候 必须 通过 对 其 性 能 的 试验 、 比 较 








来 指导 最 终 的 选择 。 


6.2 K- 近 邻 分 类 器 


6.2.1 K- 近 邻 分 类 算法 


K- 近 邻 分 类 算法 是 一 个 理论 上 比较 成 熟 的 方法 ,也 是 最 简单 的 机 器 学 习 算法 之 一 。 该 
方法 的 基本 思想 为 : 当 给 定 一 个 测试 样本 (未 知 样本 ) 时 ,首先 搜索 该 模式 空间 , 找 出 最 接近 
该 测试 样本 的 天 个 训练 样本 (已 知 样本 ), 即 天 个 最 近邻 ,然后 对 选 出 的 天 个 最 近邻 进行 统 
计 , 如 果 某 类 近邻 数量 最 多 ,就 把 这 个 测试 样本 判定 为 该 类 。 由 于 该 计算 过 程 较 粗糙 ,因此 
人 们 采用 更 精细 的 统计 方法 , 即 统计 测试 样本 与 K 个 最 近邻 中 各 类 样本 相似 度 之 和 ,并 将 
其 作为 该 测试 样本 与 各 类 的 相似 度 , 最 后 把 测试 样本 判决 给 相似 度 最 大 的 类 。 我 们 将 这 种 
精细 的 KNN 方法 作为 比较 基准 ,并 采用 如 下 设置 : 数据 集 含 有 M 类 ,各 类 记 作 Ci;(1<i<< 
M) ,所 有 样本 都 有 NN 个 属性 。 基 准 KNN 算法 的 步骤 如 下 。 

(1) 计算 测试 样本 与 所 有 训练 样本 的 距离 ,采用 欧 氏 距离 计算 。 


(6-1) 


(2) 找 出 与 测试 样本 距离 最 小 的 天 个 最 近邻 训练 样本 。 
(3) 分 别 计 算 K 个 最 近邻 训练 样本 与 测试 样本 的 相似 度 。 距 离 越 大 ,相似 度 越 小 , 反 
之 亦 然 。 其 相似 度 的 计算 公式 为 


1 


SC (6 
(4) 依据 下 式 统计 出 各 类 最 近邻 与 测试 样本 的 总 相似 度 。 
K 
Sim(X,C) = 2)Sim(X,Y;) (6-3) 
I 
1 车 三 EC 
35(Z ,CI) = (6-4) 
0 车 Yj gC 
(5) 将 测试 样本 按 下 式 判 决 为 相似 度 最 大 的 类 。 
f(X) = argmax(Sim(X.C;)) (6-5) 


6.2.2 KK- 近 邻 算 法 实例 


【 例 6-1】 使 用 常见 欧 氏 距离 作为 衡量 标准 ,以 营 尾 花 数据 集 为 例 来 说 明 K- 近 邻 分 类 
算法 。 

> instal1.packages ("kknn") “# 安 装 加 载 kknn 包 

> library (kknn) 

>data (iris) # 获 取 iris 数 据 集 

>m<-dim(iris)[1] 

>val <- sample(l:m, size = round(m/3), replace = FALSE, prob = rep(1/m, m)) 





#iris.learn,iris.valid 将 iris 数 据 集 分 为 训练 集 和 验证 集 , 比 例 为 2/3 和 1/3 


>iris.learn <-iris[-val,] 


>iris.valid <-iris[val,] 

>iris.kknn <- kknn (Species~ ., iris.learn, iris.valid, distance = 1, kernel = 
"triangular") 

> summary (iris.kknn) 

>fit <-fitted(iris.kknn) 

>table (iris.valid$ Species, fit) 


下 面 详细 解释 实例 过 程 。 
iris 数据 集 可 以 从 美国 加 州 大 学 欧文 分 校 (UCD 的 机 器 学 习 库 中 得 到 ,包含 150 条 音 尾 


花 数据 。 其 中 ,前 4 条 是 属性 ,分 别 为 苯 片 长 度 (厘米 )、 葡 片 宽度 (厘米 ) 、 花 关 长 度 (厘米 )、 
花 泊 宽 度 (厘米 ); 第 5 条 Species 为 分 类 结果 (有 监督 学 习 ) ,分 类 包括 setosa、versicolor 和 


virginica 三 类 。 


>head (iris) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


1 5.1 3.5 1.4 0.2 Setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.3 .2 Setosa 
4 4.6 3.1 1.5 .2 setosa 
5 5.0 3.6 1.4 0.2 setosa 
6 5.4 3.9 1.7 0.4 setosa 


kknn() 函 数 有 很 多 参数 ,其 中 主要 的 就 是 我 们 使 用 的 几 个 ,kknn() 函 数 说 明 如 下 : 


formula A formula object 


train Matrix or data frame of training set cases 
test Matrix or data frame of test set cases 
learn Matrix or data frame of training set cases 
valid Matrix or data frame of test set cases 


na.action A function which indicates what should happen when the data contain 'NA's 

k Number of neighbors considered 

distance Parameter of Minkowski distance 

kernel Kernel to use. Possible choices are "rectangular" (which is standard unweighted 
knn),"triangular","epanechnikov" (or beta (2, 2)),"biweight" (or beta (3, 3))," 
triweight" (or beta (4, 4)), "cos", "inv", "gaussian", "rank" and "optimal" 

ykernel Window width of an y- kernel, especially for prediction of ordinal classes 

scale logical, scale variable to have equal sd 

contrasts A vector containing the 'unordered' and 'ordered' contrasts to use 


其 中 ,我 们 用 到 的 formula 是 预测 结果 对 应 的 分 类 公式 ; train 是 训练 集 ; test 是 验证 集 


或 测试 集 ; distance 是 主要 的 KNN 输入 参数 ,表示 预 设 被 考虑 的 距离 范围 ,通过 调整 它 可 
以 改变 KNN 预测 效果 ; kernal 是 使 用 的 核 函 数 。 


summary(iris. kknn) 观 察 执行 结果 如 下 , 它 给 出 了 KNN 投票 结果 。 


>Call: 
kknn (formula = Species ~ ., train= iris.learn, test = iris.valid, distance = 1, 


kernel = "triangular") 


Response: "nominal" 
fit 
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48 versicolor 
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50 versicolor 0 1.00000000 0.00000000 
table(iris. valid $ Species，fit) 用 来 展示 整体 的 预测 结果 ,这 是 实验 过 程 中 最 有 用 的 函 
数 ,执行 结果 


>fit <-fitted(iris.kknn) 
>table (iris.valid$ Species, fit) 


fit 

setosa versicolor virginica 
setosa 14 0 0 
versicolor 0 18 
virginica 0 0 17 


从 输出 结果 可 看 出 : 第 二 行 第 三 列表 示 有 一 个 virginica 类 别 的 样本 被 预测 成 
versicolor, 其 他 的 全 部 预测 正确 。 


6.2.3 KK- 近 邻 的 特点 


KNN 算法 中 ,所 选择 的 邻居 都 是 已 经 正确 分 类 的 对 象 ,使 用 的 模型 实际 上 对 应 于 特征 
空间 的 划分 。K 值 的 选择 ,距离 度量 和 分 类 决策 规则 是 该 算法 的 三 个 基本 要 素 。 该 方法 简 
单 有 效 ,是 分 类 效果 最 好 的 方法 之 一 ,不 需要 使 用 训练 集 进行 训练 ,训练 时 间 复 杂 度 为 0。 
KNN 分 类 的 计算 复杂 度 和 训练 集中 的 样本 数目 成 正比 ,也 就 是 说 ,如 果 训 练 集中 文档 总 数 
为 ,那么 KNN 的 分 类 时 间 复 杂 度 为 O(n)。KNN 方法 虽然 从 原理 上 依赖 于 极限 定理 ,但 
在 类 别 决策 时 ,只 与 极 少量 的 相 邻 样本 有 关 , 因 此 对 类 域 的 交叉 或 重 释 较 多 的 待 分 样本 集 来 
说 ,KNN 方法 较 其 他 方法 更 为 适合 ,但 也 有 一 些 明显 的 缺点 。 

(1) KNN 属于 基于 实例 的 学 习 , 需 要 邻近 性 度量 来 确定 实例 间 的 相似 性 或 距离 ,还 需 
要 分 类 函数 根据 测试 实例 与 其 他 实例 的 邻近 性 返回 测试 实例 的 预测 类 标号 。 

(2) 是 KNN 是 一 种 lazy-learning 算法 ,不 需要 建立 模型 ,然而 确定 待 分 类 的 类 别 时 开 
销 很 大 ,因为 需要 计算 测试 样本 与 训练 样本 集合 中 全 部 样本 的 相似 度 。 

(3) KNN 算法 必须 指定 K 值 ,而 如 何 确定 待 分 类 样本 的 近邻 数目 , 尚 缺乏 较 好 且 广 泛 
适应 的 方法 。K 的 选取 对 类 别 判定 起 很 重要 的 作用 。K 取得 过 大 或 过 小 都 会 降低 分 类 的 
准确 性 。 


6.3 贝 叶 斯 分 类 


6.3.1 贝 叶 斯 概述 


1. 基本 原理 

通常 ,事件 A 在 事件 B( 发 生 ) 的 条 件 下 的 概率 P(A |B) ,与 事件 B 在 事件 A 的 条 件 下 
的 概率 P(B|A) 是 不 一 样 的 。 然 而 ,这 两 者 有 确定 的 关系 , 贝 叶 斯 定理 就 是 对 这 种 关系 的 陈 
述 。 贝 叶 斯 定理 是 计算 概率 的 一 种 方法 , 即 认 为 一 个 事件 会 不 会 发 生 取决 于 该 事件 在 先 验 
分 布 中 已 经 发 生 过 的 次 数 。 设 P(A) 为 已 知事 件 A 发 生 的 概率 , 称 为 先 验 概率 ,而 PCB|A) 
是 在 考虑 事件 A 之 后 对 事件 B 发 生 的 概率 估计 , 称 为 后 验 概率 , 贝 叶 斯 公式 可 以 表示 为 





P(A | B)P(B) 
P(A) 


令 D={(A=a ,Ai 一 ai As 二 an;C 二 0) (iE[1,nj,jE[1,m]) 为 训练 集 ,其 中 
A 二 {Al,As,…,A,}) 是 属性 变量 ,C 二 {oc ,cs，…,c) 是 类 变量 ,a; 是 属性 A; 的 取 值 ,测试 实 
例 久 二 {al was，… was)}。 贝 叶 斯 分 类 器 的 分 类 原理 是 通过 对 象 的 先 验 概率 ,利用 贝 叶 斯 公式 
计算 出 其 后 验 概率 , 即 该 对 象 属于 某 一 类 的 概率 ,选择 具有 最 大 后 验 概率 的 类 作为 该 对 象 的 
类 , 即 Cwp 二 argmaxP(cj;|X),P(Cmap | 久 )(j EL[1,m]) 称 为 最 大 后 验 概率 。 使 用 贝 叶 斯 定 
理 , 有 


P(B|A)= (6-6) 








_ py P(X | c)P(c) 
argmaxP(c | X) argmax PK) 


由 此 可 见 , 贝 叶 斯 分 类 器 是 最 小 错误 率 意义 上 的 优化 。 

2. 基本 算法 分 类 

1) 朴素 贝 叶 斯 模型 (Naive Bayesian Classifier, NBC) 

朴素 贝 叶 斯 分 类 模型 发 源 于 古典 数学 理论 ,有 着 坚实 的 数学 基础 ,以 及 稳定 的 分 类 效 
率 。 同 时 ,NBC 模型 所 需 估计 的 参数 很 少 ,对 缺失 数据 不 太 敏 感 ,算法 也 比较 简单 。 理 论 
上 ,NBC 模型 与 其 他 分 类 方法 相 比 具有 最 小 的 误差 率 。 

2) 树 增强 型 朴素 贝 叶 斯 算法 (Tree-Augmented Naive Bayesian Network, TAN) 

TAN 算法 通过 发 现 属性 对 之 间 的 依赖 关系 来 降低 NB 中 任意 属性 之 间 独 立 的 假设 。 

是 在 NB 网 络 结构 的 基础 上 增加 属性 对 之 间 的 关联 ( 边 ) 来 实现 的 。 

实现 方法 是 : 用 节点 表示 属性 ,用 有 向 边 表示 属性 之 间 的 依赖 关系 ,把 类 别 属性 作为 根 
节点 ,其 余 所 有 属性 都 作为 它 的 子 节点 。 

3. 算法 场景 和 特点 

ed nd di i 目前 已 广泛 应 用 于 统计 分 析 、 测 绘 学 、 概 
率 空间 ,统计 决策 论 等 教学 领域 ,人 工 智能 .计算机 科学 ,模式 识别 数量 地 理学 等 工程 领域 ， 
并 在 生态 系统 、 生 态 学 等 领域 发 挥 重 要 作用 ,尤其 适合 不 同 维度 之 间 相 关 性 较 小 的 模型 时 ， 
而 与 其 相关 的 一 些 问题 也 是 近来 的 热点 研究 课题 。 

贝 叶 斯 分 类 具有 如 下 特点 。 

(1) 贝 叶 斯 分 类 并 不 是 把 一 个 实例 绝对 指派 给 某 一 类 ,而 是 通过 计算 得 出 属于 某 一 类 
的 概率 ,具有 最 大 概率 的 类 是 该 实例 所 属 的 类 。 

(2) 一 般 情况 下 ,在 贝 叶 斯 分 类 中 的 所 有 属性 都 直接 或 间接 地 发 挥 作用 , 即 所 有 的 属性 
都 参与 分 类 ,而 不 是 一 个 或 几 个 属性 决定 分 类 。 

(3) 贝 叶 斯 分 类 实例 的 属性 可 以 是 离散 的 、 连 续 的 ,也 可 以 是 混合 的 。 

Bayes 方法 的 薄弱 环节 在 于 实际 情况 下 ,类 别 总 体 的 概率 分 布 和 各 类 样本 的 概率 分 布 
函数 (或 密度 函数 ) 常 常 是 不 知道 的 。 为 了 获得 它们 ,要求 样本 足够 大 。 另 外 ,Bayes 法 要 求 
表达 样本 的 主题 词 相互 独立 ,这样 的 条 件 在 实际 样本 中 一 般 很 难 满足 ,因此 该 方法 往往 在 效 
果 上 难以 达到 理论 上 的 最 大 值 。 

4. 后 续 扩 展 

贝 叶 斯 理论 的 研究 是 机 器 学 习 和 数据 挖掘 的 一 个 重要 领域 ,在 贝 叶 斯 概率 统计 基础 上 
不 断 衍 变 发 展 。 下 面 以 贝 叶 斯 决策 、 贝 叶 斯 网 络 为 例 进行 简要 说 明 。 


(GE€ [l,m]) (6-7) 








(1) 贝 叶 斯 决策 (Bayesian Decision Theory) 

就 是 在 不 完全 情报 下 ,对 部 分 未 知 的 状态 用 主观 概率 估计 ,然后 用 贝 叶 斯 公式 对 发 生 概 
率 进 行 修正 ,最 后 再 利用 期 望 值 和 修正 概率 做 出 最 优 决 策 。 

贝 叶 斯 决策 属于 风险 型 决策 ,决策 者 虽 不 能 控制 客观 因素 的 变化 , 却 掌握 其 变化 的 可 能 
状况 及 各 状况 的 分 布 概率 ,利用 期 望 值 即 未 来 可 能 出 现 的 平均 状况 作为 决策 准则 。 作 为 统 
计 模 型 决策 中 的 一 个 基本 方法 ,其 基本 思想 是 : 

OO 已 知 类 条 件 概率 密度 参数 表达 式 和 先 验 概率 。 

@ 利用 贝 叶 斯 公式 转换 成 后 验 概率 。 

@ 根据 后 验 概率 大 小 进行 决策 分 类 。 

(2) 贝 叶 斯 网 络 (Bayesian Network) 

贝 叶 斯 网 络 又 称 信念 网 络 , 是 Bayes 方法 的 扩展 ,是 目前 不 确定 知识 表达 和 推理 领域 最 
有 效 的 理论 模型 之 一 。 从 1988 年 由 Pearl 提出 后 ,已 经 成 为 近 几 年 来 研究 的 热点 。 一 个 贝 
叶 斯 网 络 是 一 个 有 向 无 环 图 (Directed Acyclic Graph,DAG) ,由 代表 变量 节点 及 连接 这 些 
节点 的 有 向 边 构成 。 节 点 代表 随机 变量 ,节点 间 的 有 向 边 代表 节点 间 的 互相 关系 (由 父 节点 
指向 其 子 节点 ), 用 条 件 概率 进行 表达 关系 强度 ,没有 父 节 点 的 用 先 验 概率 进行 信息 表达 。 
节点 变量 可 以 是 任何 问题 的 抽象 ,如 测试 值 、 观 测 现象 意见 征询 等 。 适 用 于 表达 和 分 析 不 
确定 性 和 概率 性 的 事件 ,应 用 于 有 条 件 地 依赖 多 种 控制 因素 的 决策 ,可 以 从 不 完全 ,不 精确 
或 不 确定 的 知识 或 信息 中 作出 推理 。 

作为 一 种 基于 概率 的 不 确定 性 推理 方法 , 贝 叶 斯 网 络 在 处 理 不 确定 信息 的 智能 化 系统 
中 已 得 到 重要 的 应 用 ,已 成 功 地 用 于 医疗 诊断 ,统计 决策 、 专 家 系统 、 学 习 预 测 等 领域 。 这 些 
成 功 的 应 用 ,充分 体现 了 贝 叶 斯 网 络 技 术 是 一 种 强 有 力 的 不 确定 性 推理 方法 。 


6.3.2 朴素 贝 叶 斯 分 类 原理 


朴素 贝 叶 斯 分 类 假定 一 个 属性 值 对 给 定 类 的 影响 独立 于 其 他 属性 的 值 , 即 在 属性 间 不 
存在 依赖 关系 ,因此 称 为 “朴素 的 ”。 
朴素 贝 叶 斯 的 思想 基础 是 : 对 于 给 出 的 待 分 类 项 ,求解 在 此 项 出 现 的 条 件 下 各 个 类 别 
出 现 的 概率 ,哪个 最 大 ,就 认为 此 待 分 类 项 属于 哪个 类 别 。 通 俗 来 说 ,你 在 街 上 看 到 一 个 黑 
人 , 猜 猜 他 是 从 哪里 来 的 ,你 十 有 八 九 猜 非 洲 。 为 什么 呢 ? 因为 黑人 中 非洲 人 的 概率 最 高 ， 
当然 也 可 能 是 美洲 人 或 亚洲 人 ,但 在 没有 其 他 可 用 信息 下 ,我们 会 选择 条 件 概率 最 大 的 类 
别 , 这 就 是 朴素 贝 叶 斯 的 思想 基础 。 
朴素 贝 叶 斯 分 类 的 正式 定义 如 下 : 
(1) 设 z={aiyaz，…an} 为 一 个 待 分 类 项 ,而 每 个 a 为 zx 的 一 个 特征 属性 。 
(2) 有 类 别 集 合 C= {yi ,yz ，… ,yn})。 
(3) 计算 PCy |zx)、P(ys1z)、……*\P(y, lz)。 
(4) 如 果 PC(yi|z)= 二 max{PCyi1z) ,PCys|z),… ,Ply, 17z)}, 则 rE yi。 
关键 就 是 如 何 计算 第 @ 步 中 的 各 个 条 件 概 率 。 可 以 这 么 做 : 
(1) 找到 一 个 已 知 分 类 的 待 分 类 项 集合 ,这 个 集合 叫 作 训练 样本 集 。 
(2) 统计 得 到 在 各 类 别 下 各 个 特征 属性 的 条 件 概率 估计 , 即 
Pla | y1) ,Plas | yw) …, Po。 | y1); Pa | ya) ,Plas |y) ,Poly); 3 


大 数据 
i 
Plai | y,) ,Plas | y,) ,PCa。| ym) (6-8) 
(3) 如 果 各 个 特征 属性 是 条 件 独立 的 , 则 根据 贝 叶 斯 定理 有 如 下 推导 
人 | w)PCw) 
P(Cyx | zx) = a (6-9) 


因为 分 母 对 于 所 有 类 别 为 常数 ,只 要 将 分 子 最 大 化 即 可 。 又 因为 各 特征 属性 是 条 件 独立 的 ， 
所 以 有 
Plz | y)P(y)= Plai | yi)P(as | yi)**…P(an | yi)P(y;) 


= P(y) [I Pa; | y,) (6-10) 
i=l 


6.3.3 朴素 贝 叶 斯 分 类 实例 


【 例 6-2】 以 PimaIndiansDiabetes2 数据 集 为 测试 数据 ,采用 贝 叶 斯 算法 对 数据 进行 建 
模 , 判 断 病人 的 糖尿 病 为 阴性 还 是 阳性 。 

分 析 : 本 案例 选用 PimaIndiansDiabetes2 数据 集 ,是 美国 一 个 疾病 研究 机 构 所 拥有 的 
一 个 数据 集 , 其 中 包括 9 个 变量 ,共有 768 个 样本 。 响 应 变量 即 是 对 糖尿 病 的 判断 , 它 是 一 
个 二 元 变量 。 其 他 各 解释 变量 是 个 体 的 若干 特征 ,如 年 龄 和 其 他 医学 指标 , 均 为 数值 变量 。 
其 中 有 一 些 缺 失 值 的 存在 ,虽然 朴素 贝 叶 斯 分 类 对 于 缺失 值 并 不 敏感 ,我 们 还 是 先 将 其 进行 
持 补 ,再 进行 建 模 以 观察 准确 率 。 

R 语言 的 e1071 包含 可 以 实施 朴素 贝 叶 斯 分 类 的 函数 ,本 例 中 我 们 使 用 klaR 包 中 的 
NaiveBayes() 函 数 , 因 为 该 函数 较 之 前 者 增加 了 两 个 功能 : 一 个 是 可 以 输入 先 验 概率 ; 另 一 
个 是 在 正 态 分 布 基础 上 增加 了 核 平滑 密度 函数 。 为 了 避免 过 度 拟 合 , 在 训练 时 还 要 将 数据 
分 割 进行 多 重 检 验 , 所 以 我 们 还 使 用 了 caret 包 的 一 些 函 数 进行 配合 。 

解 : 代码 实现 过 程 如 下 。 


instal1.packages ("caret") # 加 载 扩展 包 和 数据 

install .packages ("mlbench") 

library (lattice) 

library (ggplot2) 

library (caret) 

library (mlbench) 

data (PimaIndiansDiabetes2,package= "mlbench') 

instal1.packages ("ipred")# 对 缺失 值 使 用 袋 方法 进行 插 补 

library (ipred) 

preproc < -preProcess (PimaIndiansDiabetes2[ - 9],method= "bagImpute") 
data <—predict (preproc, PimaIndiansDiabetes2[- 9]) 

data$ Class <- PimaIndiansDiabetes2[ ,9] 

# 使 用 朴素 贝 叶 斯 建 模 , 这 里 使 用 了 三 次 10 折 交叉 检验 得 到 30 个 结果 
fitControl <- trainControl (method = "repeatedcv", number = 10, repeats = 3,returnResamp = 
Wall 

library (klaR) 

library (MASS) 

modell <-train (Class~ ., data=data,method= "nb',trControl = fitControl) 
# 观 察 30 次 检验 结果 ,发 现 准确 率 在 0.75 左 右 


resampleHist model1) 





# 返 回 训练 数据 的 混淆 和 矩阵 
pre <—predict (modell1) 
confusionMatrix (pre, data$ Class) 


混淆 矩阵 结论 及 显示 , 贝 叶 斯 分 类 准确 率 及 卡 帕 值 分 布 如 图 6-1 所 示 。 


Confusion Matrix and Statistics 
Reference 
Prediction neg pos 
neg 410 71 
pos 90 197 
Accuracy : 0.7904 
95% CI : (0.7598, 0.8186) 
No Information Rate : 0.651 
P-Value [acc >NIR] : <2e-16 
Kappa : 0.5461 
Mcnemar's Test P- Value : 0.156 
Sensitivity : 0.8200 
Specificity : 0.7351 
Pos Pred Value : 0.8524 
Neg Pred Value : 0.6864 
Prevalence : 0.6510 
Detection Rate : 0.5339 
Detection Prevalence : 0.6263 
Balanced Accuracy : 0.7775 
"Positive' Class : neg 
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图 6-1 贝 叶 斯 分 类 准确 率 及 卡 帕 值 分 布 


通过 观察 输出 结果 可 知 ,模型 的 准确 率 为 0.7904; 可 视 化 观察 得 知 模型 卡 帕 值 为 
0.5461。 病 人 的 糖尿 病 为 阴性 。 


6.3.4 朴素 贝 叶 斯 的 特点 


贝 叶 斯 分 类 是 一 系列 分 类 算法 的 总 称 ,这 类 算法 均 以 贝 叶 斯 定理 为 基础 , 故 统称 为 贝 叶 
斯 分 类 。 朴 素 贝 叶 斯 算法 (Naive Bayesian) 作 为 最 简单 也 是 应 用 最 为 广泛 的 分 类 算法 之 一 ， 
主要 优点 如 下 : 

(1) 朴素 贝 叶 斯 模型 发 源 于 古典 数学 理论 ,有 稳定 的 分 类 效率 。 

(2) 对 小 规模 的 数据 表现 很 好 ,能 够 处 理 多 分 类 任务 ,适合 增 量 式 训练 ,尤其 是 数据 量 
超出 内 存 时 ,我 们 可 以 一 批 批 进行 增 量 训练 。 

(3) 对 缺失 数据 不 太 敏感 ,算法 也 比较 简单 ,常用 于 文本 分 类 。 

主要 缺点 如 下 : 

(1) 理论 上 ,朴素 贝 叶 斯 模型 与 其 他 分 类 方法 相 比 具有 最 小 的 误差 率 。 实 际 上 并 非 总 
是 如 此 ,因为 朴素 贝 叶 斯 模型 假设 属性 之 间 相 互 独立 ,这 个 假设 在 实际 应 用 中 往往 是 不 成 立 
的 ,在 属性 个 数 比较 多 或 者 属性 之 间 相 关 性 较 大 时 ,分 类 效果 不 好 。 而 在 属性 相关 性 较 小 
时 ,朴素 贝 叶 斯 性 能 最 为 良好 。 对 于 这 一 点 ,有 半 朴 素 贝 叶 斯 之 类 的 算法 通过 考虑 部 分 关联 

(2) 需要 知道 先 验 概率 , 且 先 验 概 率 很 多 时 候 取决 于 假设 ,假设 的 模型 可 以 有 很 多 种 ， 
因此 在 某 些 时 候 会 由 于 假设 的 先 验 模型 的 原因 导致 预测 效果 不 佳 。 

(3) 由 于 我 们 是 通过 先 验 和 数据 来 决定 后 验 的 概率 从 而 决定 分 类 ,所 以 分 类 决策 存在 
一 定 的 错误 率 。 

(4) 对 输入 数据 的 表达 形式 很 敏感 。 


64 神经 网 络 与 深度 学 习 


深度 学 习 是 目前 最 为 火热 的 研究 方向 之 一 , Andrew Ng 曾 提出 ,深度 学 习 算 法 可 以 使 
机 器 “自己 学 会 世界 上 的 一 些 概 念 ”, 也 就 是 机 器 将 具备 一 定 的 人 类 的 学 习 和 思考 能 力 。 神 
经 网 络 作为 一 门 重要 的 机 器 学 习 技 术 , 是 深度 学 习 的 基础 内 容 。 学 习 神 经 网 络 不 仅 可 以 让 
我 们 掌握 一 门 强大 的 机 器 学 习 方 法 ,同时 可 以 更 好 地 帮助 我 们 理解 深度 学 习 技术 。 


6.4.1 神经 网 络 基 本 原理 


人 工 神经 网 络 (Artificial Neural Networks，、ANN) 是 参照 生物 神经 网 络 而 发 展 起 来 的 
一 种 运算 模型 ,由 大 量 人 工 神经 元 节点 互联 构成 。 它 是 一 种 非 程 序 化 .适应 性 ` 大 脑 风格 的 
信息 处 理 , 其 本 质 是 通过 网 络 的 变换 和 动力 学 行为 得 到 一 种 并 行 分 布 式 的 信息 处 理 功能 ,并 
在 不 同 程度 和 层次 上 模仿 人 脑 神经 系统 的 信息 处 理 功 能 。 图 6-2 表示 作为 神经 网 络 的 基本 
单元 的 神经 元 模型 , 它 有 三 个 基本 要 素 。 

(1) 一 组 连接 (对 应 于 生物 神经 元 的 突 触 ) ,连接 强度 由 各 连接 上 的 权 值 表 示 , 权 值 为 正 
表示 激活 ,为 负 表 示 抑 制 。 

(2) 一 个 求 和 单元 ,用 于 求 取 各 输入 信号 的 加 权 和 (线性 组 合 ) 。 






人 激活 函数 输出 
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图 6-2 基本 神经 元 模型 


(3) 一 个 非 线性 激活 函数 ,起 非 线 性 映射 作用 并 将 神经 元 输出 幅度 限制 在 一 定 范围 内 
(一 般 限 制 在 (0,1) 或 (一 1, 十 1) 之 间 )。 此 外 ,还 有 一 个 国 值 9. (或 偏 置 5b 二 0;)。 
以 上 作用 可 分 别 用 数学 式 表 达 出 来 。 


p 
ur = Dvr = nets = ur — hry = pu) C6-11) 
=1 


式 中 ,zi zs，… ,zz 为 输出 信号 ,aa ,Ge ，… ,6 为 神经 元 & 之 权 值 ; wu 为 线性 组 合 结果 ; 0 
为 阐 值 ; pg(， ) 为 激活 函数 ; ys 为 神经 元 k 的 输出 。 

神经 网 络 通过 网 络 中 各 连接 权 值 的 改变 ,实现 信息 的 处 理 和 存储 。 在 神经 网 络 中 每 个 
神经 元 既是 信息 的 存储 单元 ,又 是 信息 的 处 理 单元 ,将 信息 的 处 理 与 存储 合 二 为 一 ,由 这 些 
神经 元 构成 的 网 络 在 每 个 神经 元 的 共同 作用 下 .完成 对 输入 模式 的 识别 与 记忆 。 

在 对 输入 模式 的 识别 和 记忆 过 程 中 ,各 神经 元 之 间 的 连接 权 值 随 着 模式 的 输入 而 不 断 
调整 ,把 环境 的 统计 率 反 映 到 神经 网 络 本 身 的 结构 之 中 而 保持 下 来 ,这 样 就 达到 了 对 输入 模 
式 的 记忆 。 进 而 为 神经 网 络 对 模式 的 识别 做 好 准备 。 神 经 网 络 对 输入 模式 进行 学 习 之 后 ， 
神经 网 络 将 输入 模式 的 特征 提取 出 来 ,并 产生 记忆 。 在 利用 神经 网 络 进行 数据 挖掘 的 时 候 ， 
由 于 神经 网 络 中 各 个 连接 权 值 已 经 固定 了 ,所 以 神经 网 络 通 过 计算 待 识别 模式 的 加 权 和 , 通 
过 S 函数 产生 一 个 输出 ,这 个 输出 就 是 和 待 识别 模式 最 相似 的 记忆 模式 的 类 别 。 

6.4.2 深度 学 习 

深度 学 习 (Deep Learning，DL) 算 法 的 概论 源 于 人 工 神 经 网 络 的 研究 ,可 看 作 是 神经 网 
络 的 延伸 ,是 机 器 学 习 中 一 种 基于 对 数据 进行 表征 学 习 的 方法 。 观 测 值 ( 例 如 一 幅 图 像 ) 可 
以 使 用 多 种 方式 来 表示 ,如 每 个 像素 强度 值 的 向 量 ,或 者 更 抽象 地 表示 成 一 系列 边 、 特 定形 
状 的 区 域 等 。 使 用 某 些 特 定 的 表示 方法 更 容易 从 实例 中 学 习 任 务 ( 例 如 ,人 脸 识 别 或 面部 表 
情 识 别 )。 深 度 学 习 的 好 处 是 用 非 监 督 式 或 半 监 督 式 的 特征 学 习 和 分 层 特征 提取 高 效 算法 
来 代 蔡 人 工 获取 特征 。 

深度 学 习 是 机 器 学 习 研 究 中 的 一 个 新 的 领域 ,其 动机 在 于 建立 ,模拟 人 脑 进 行 分 析 学 习 
的 神经 网 络 , 它 模仿 人 脑 的 机 制 来 解释 数据 。 深 度 学 习 的 基本 思想 : 假设 有 一 个 系统 S, 它 
用 层 (Si ,…,S,) , 它 的 输入 是 1, 输出 是 O, 形 象 地 表示 为 [一 盖 S 一 二 S: 一 二 … 一 二 S, 一 二 
O, 如 果 输 出 O 等 于 输入 了 T, 即 输入 了 经 过 这 个 系统 变化 之 后 没有 任何 的 信息 损失 。 设 处 理 
a 信息 得 到 0 ,再 对 2 处 理 得 到 c ,那么 可 以 证 明 ,a 和 c 的 互信 息 不 会 超过 a 和 2 的 互信 息 。 
这 表明 信息 处 理 不 会 增加 信息 ,大 部 分 处 理会 丢失 信息 。 保 持 了 不 变 , 这 意味 着 输入 了 经 过 
每 一 层 S; 都 没有 任何 的 信息 损失 , 即 在 任何 一 层 S;, 它 都 是 原 有 信息 ( 即 输入 让 的 另外 一 








种 表示 。 现 在 回 到 主题 深度 学 习 , 需 要 自动 地 学 习 特 征 。 假 设 有 一 堆 输入 IT( 如 一 维 图 像 或 
者 文本 ) ,设计 了 一 个 系统 S( 有 交 层 ) ,通过 调整 系统 中 的 参数 ,使 得 它 的 输出 仍然 是 输入 也， 
那么 可 以 自动 地 获取 得 到 输入 工 的 一 系列 层次 特征 , 即 S ,…，,S,。 

对 深度 学 习 来 说 ,其 思想 就 是 对 堆 释 多 个 层 , 也 就 是 说 这 一 层 的 输出 作为 下 一 层 的 输 
人。 通过 这 种 方式 ,可 以 实现 对 输入 信息 进行 分 级 表达 。 


6.4.3 分 类 实例 


1. 神经 网 络 R 实现 

nnet 软件 包 用 来 建立 单 隐藏 层 的 前 馈 人 工 神经 网 络 模 型 ,同时 用 来 建立 多 项 对 数 线性 
模型 。 包 中 主要 有 四 个 函数 class. ind()、 multinom ()、nnet() 和 nnetHess(), 其 中 
multinom() 函数 用 来 建立 多 项 对 数 模型 ,在 此 不 进行 具体 的 介绍 。 

前 馈 网 络 中 各 个 神经 元 按 接 受信 息 的 先后 分 为 不 同 的 组 ,每 一 组 可 以 看 作 一 个 神经 层 ， 
每 一 层 中 的 神经 元 接受 前 一 层 神经 元 的 输出 ,并 输出 到 下 一 层 神经 元 。 整 个 网 络 中 的 信息 
朝 一 个 方向 传播 ,没有 反 向 的 信息 传播 。 前 馈 网 络 可 以 用 一 个 有 向 无 环 路 图 表示 。 前 馈 网 
络 可 以 看 作 一 个 函数 ,通过 简单 非 线性 函数 的 多 次 复合 ,实现 输入 空间 到 输出 空间 的 复杂 映 
射 。 这 种 网 络 结构 简单 ,易于 实现 。 前 馈 网 络 包 括 全 连接 前 馈 网 络 和 卷 积 神经 网 络 等 。 

# 下 载 安装 相 应 的 软件 包 , 加 载 后 即 可 使 用 


>install .packages ("nnet") 





> library (nnet) 


下 面 对 class. ind() .nnet() 和 nnetHess() 函 数 一 一 介绍 。 

1) class. ind() 函 数 

class. ind(cl) 函 数 用 来 对 数据 进行 预 处 理 , 这 也 是 该 函数 最 重要 以 及 唯一 的 功能 。 具 
体 来 说 ,该 函数 用 来 对 建 模 数 据 中 的 结果 变量 进行 处 理 。 

该 函数 中 只 有 一 个 参数 cl, 该 参数 可 以 是 一 个 因子 向 量 ,也 可 以 是 一 个 类 别 向 量 。 


>vectorl=c("a", "b", "c","d") 
>vector2=c(1,2,1,3) 
>class.ind(vectorl) 
>class.ind(vector2) 
# 结 果 
Output 

>class.ind (vectorl) 

abcd 

[1,]1000 
[2,]0100 
[3,]0010 
[4,]0001 
>class.ind (vector2) 
123 
]100 
,J010 
,i000 
001 








2) nnet() 困 数 
nnet() 函 数 是 实现 神经 网 络 的 核心 函数 ,主要 用 来 建立 单 隐藏 层 的 前 馈 人 工 神经 网 络 
模型 ,也 可 以 用 该 函数 建立 无 隐藏 层 的 前 馈 人 工 神经 网 络 模型 。 





函数 语法 一 : 
nnet (formula, data, weights, ...,subset, na.action, contrasts = NULL) 
函数 语法 二 : 


nnet (x, y, weights, size, Wts, mask, 
linout = FALSE, entropy = FALSE, softmax = FALSE, 
censored = FALSE, skip= FALSE, rang= 0.7, decay= 0, 
maxit = 100, Hess = FALSE, trace = TRUE, MaxNWts = 1000, 
abstol = 1.0e-4, reltol = 1.0e-8, ...) 
其 中 的 参数 说 明 如 下 。 
formula: 公式 的 形式 class 一 xl 十 x2 十 …。 
x: 矩阵 或 数据 框 的 x 值 的 例子 。 
y: 和 矩阵 或 数据 框 的 目标 值 的 例子 。 
weights: (case) 的 权重 为 每 一 个 例子 ,如 果 缺 少 默 认为 1 。 
size: 隐藏 层 中 的 单位 数目 ,可 以 是 0, 比如 是 略 层 单元 。 
data: 从 数据 框 中 指定 的 变量 formula 优先 措施 。 
subset: 索引 向 量 指定 训练 样本 中 的 情况 下 被 使 用 (如 果 给 定 ,该 参数 必须 被 命名 ) 。 
na. action: 如 果 NAs 的 函数 指定 动作 ,默认 操作 是 失败 的 程序 。 男 一 种 方法 是 na. 
omit, 从 而 导致 拒绝 任何 所 需 的 变量 的 遗漏 值 的 情况 (如 果 给 定 ,该 参数 必须 被 命名 ) 。 
contrasts: 用 于 出 现 的 因素 作为 模型 公式 中 的 变量 的 一 些 或 所 有 的 列表 对 比 。 
Wts: 初始 参数 矢量 ,如 果 缺 少 随意 选择 。 
mask: 逮 辑 向 量 表 示 要 优化 的 参数 (默认 ) 。 
linout: 切换 线性 输出 单位 ,默认 的 逻辑 输出 单元 。 
entropy: 切换 炉 (= 最 大 有 条 件 的 可 能 性 ) 配 件 。 默 认 情 况 下 ,通过 最 小 二 乘 。 
softmax: 切换 SOFTMAX( 对 数 线性 模型 ) 和 有 条 件 的 可 能 性 最 大 拟 合 。 
censored: softmax 的 一 个 变 体 , 其 中 非 零 的 目标 ,意味 着 可 能 的 类 。 因 此 ,为 softmax 
一 排 (0, 1, 1) 装 置 的 一 个 例子 的 每 个 等 级 2 和 3, 但 censored 装置 的 一 个 例子 ,其 是 唯一 已 
知 的 ,是 2 个 或 3 个 类 。 
skip: 切换 到 添加 略 层 从 输入 到 输出 的 连接 。 
rang: 初始 随机 权重 [一 rang,rang]。 约 0.5 的 值 ,除非 输入 大 ,在 这 种 情况 下 , 它 应 该 
选择 rang * 最 大 (|x|) 约 为 1。 
decay: 参数 重量 腐烂 ,默认 值 为 0。 
3) nnetHess() 函 数 
该 函数 用 来 估计 人 工 神经 网 络 模型 中 的 黑 塞 矩阵 ( 即 二 次 导数 和 矩阵) 。 
函数 语法 : 


nnetHess (net, x, y, weights) 





参数 解析 如 下 。 

net: 类 的 对 象 nnet 返回 的 nnet。 

x: 训练 数据 。 

y: 训练 数据 的 类 。 

nnet 程序 包 除了 以 上 四 个 主要 函数 外 ,还 能 同 R 自 带 的 函数 predict() 配 合 使 用 ,该 函 


数 主要 用 于 估计 multinom() 函 数 和 nnet 函数 所 建立 模型 的 预测 结果 。 


【 例 6-3】 以 iris 数据 集 为 例 ,运用 神经 网 络 nnet 软件 包 对 三 种 高 尾 花 (分 别 标记 为 


setosa、versicolor 和 virginica) 进 行 分 类 。 


<library (nnet) 
# 第 一 步 : 数据 获取 
<ir = rbind(iris3[,,1],iris3[,,2],iris3[,,3]) ”# 预 测 变量 x 
<targets = class.ind(c(rep("s",50),rep("c",50),rep("v",50))) 。 ## 目 标 变量 Y 
# 第 二 步 : 数据 划分 (训练 集 + 验 证 集 ) 
<set.seed(1234) “#70s 的 数据 集 作为 训练 模型 
<samp = c(sample(1:50,35),sample(51:100,35),sample (101:150,35)) 
<ir.train = ir[samp,] 
<targets.train = targets[ samp,] 
<ir.validation = ir[- samp,] 
<targets.validation = targets[- samp,] 
# 第 三 步 : 模型 构建 
<ir.nnet = nnet(ir.train,targets.train,size= 2,rang= 0.l,decay = 5e-4,maxit = 
200) 
output: 
#weights: 19 
initial value 78.223905 
iter 10 value 37.039047 
iter 20 value 35.347126 
iter 30 value 35.193016 
iter 40 value 35.115455 
iter 50 value 34.132392 
iter 60 value 4.270811 
iter 70 value 1.900146 
iter 80 value 1.445292 
iter 90 value 1.355613 
iter 100 value 1.337940 
iter 110 value 1.328507 
iter 120 value 1.327707 
iter 130 value 1.327180 
iter 140 value 1.326700 
iter 150 value 1.326621 
iter 160 value 1.326610 
iter 170 value 1.326604 
final value 1.326603 
converged 
# 第 四 步 : 模型 应 用 
<test.cl = function (truevpred){ 
true = max.col (true) 
cres= max.col (pred) 





table (true, cres) 
} 
<test.cl (targets.validation,predict (ir.nnet,ir.validation)) 
output: 
#cres 
true 1 2 3 
于 从 入 
2 015 0 
30 014 


2. 深度 学 习 R 实现 

h2o 是 基于 大 数据 的 统计 分 析 、 机 器 学 习 和 数学 库 包 , 利 用 核心 数学 积木 搭建 应 用 块 代 
码 , 采 取 类 似 R 语 言 的 Excel 或 JSON 等 熟悉 接口 ,方便 用 户 对 数据 集 进行 探索 、 建 模 和 评 
估 。h2o 还 可 以 更 快 更 好 地 预测 模型 源 实现 快速 和 方便 的 数据 挖掘 ,并 将 在 线 评分 和 建 模 
融合 在 一 个 单一 平台 上 。 作 为 一 个 开源 的 可 扩展 的 库 ,支持 Java、Python、Scala、R 等 。 下 
面 对 h2o 库 函 数 作 一 一 说 明 。 

1) h2o. deeplearning() 

函数 语法 : 


h20.deeplearning (x, y, training frame, model id = NULL, 
validation frame = NULL, nfolds= 0, 
keep cross validation predictions = FALSE, 
keep cross validation fold assignment = FALSE, fold assignment = c("AUTO", 
"Random", "Modulo", "Stratified"), fold column = NULL, 
ignore const cols = TRUE,...) 


参数 解析 如 下 。 
x: 包含 用 于 构建 模型 的 预测 变量 的 名 称 或 索引 的 向 量 。 如 果 缺 少 x, 则 使 用 除 y 以 外 
的 所 有 列 。 


y: 模型 中 的 响应 变量 的 名 称 。 如 果 数 据 不 包含 头 , 则 这 是 第 一 列 索 引 , 并 且 从 左 到 右 
增加 (响应 必须 是 整数 或 分 类 变量 ) 。 

training_frame: 训练 数据 帧 的 ID( 人 允许 初始 验证 模型 参数 ) 。 

2) h2o. predict() 

靖 数 语法 : 

h2o.predict (object, newdata, ...) 

参数 解析 如 下 。 

object: 需要 预测 的 适合 的 H2OModel 对 象 。 

newdata: 一 个 h2oframe 对 象 , 其 中 要 查找 用 于 预测 的 变量 额外 传递 的 论据 。 


3) h2o. performance() 
函数 语法 : 


h2o.performance (model, newdata = NULL, train= FALSE, valid = FALSE, 
xval = FALSE, data = NULL) 


参数 解析 如 下 。 


model: 一 个 H2OModel 对 象 。 

newdata: 对 数据 集 进 行 预测 ,并 对 其 进行 评分 。 数 据 集 应 与 列 名 称 、 类 型 和 维度 方面 
用 于 训练 模型 的 数据 集 相 匹配 。 如 果 传人 newdata, 则 忽略 train、valid 和 xval。 

train: 指示 是 否 返回 训练 指标 (在 训练 期 间 构建 ) 的 迎 辑 值 。 

valid: 指示 是 否 返回 验证 度量 (在 培训 期 间 构建 ) 的 逻辑 值 。 

xval: 指示 是 否 返 回 交叉 验证 度量 (在 训练 期 间 构建 ) 的 逻辑 值 。 

data: (DEPRECATED) 一 个 h2oframe, 这 个 参数 现在 称 为 newdata。 

【 例 6-4】 以 iris 数据 集 为 例 , 运 用 深度 学 习 h2o 库 核 心 函 数 对 葛 尾 花 数 据 集 的 三 个 类 
别 进行 分 类 试验 。 


# 安 装 加 载 h2o 库 

< install .packages ("h2o") 

< library (h20) 

<iris.hex = as.h2o(iris) 

# 模 型 拟 合 

<iris.dl = h20.deeplearning(x= 1:4,y= 5,training frame = iris.hex) 
# 预 测 

<predictions = h20.predict (iris.dl,iris.hex) 

## 转 换 为 数据 框 

<as.data.frame (predictions) 

# Output (部 分 数据 ) 

predict setosa versicolor virginica 
setosa 9.997296e- 01 2.704364e- 04 6.192991e- 29 
setosa 9.975444e- 01 2.455552e- 03 3.523783e- 27 
setosa 9.997747e- 01 2.253113e- 04 2.737802e- 28 
setosa 9.996228e- 01 3.772022e- 04 2.677604e- 27 
setosa 9.999086e- 01 9.137599e- 05 2.636822e- 29 
setosa 9.997852e- 01 2.148168e- 04 1.164865e- 27 
setosa 9.999450e- 01 5.497370e- 05 5.711848e- 28 
setosa 9.996331e- 01 3.669056e- 04 2.371099e- 28 


Daoumwnb PP 


<Performance = h2o.performance (model = iris.dl) 
<print (performance) 

Output: 

H20MultinomialMetrics: deeplearning 

*#* Reported on training data. ** 

*# Metrics reported on full training frame ** 


Training Set Metrics: 





Extract training frame with 'h20.getFrame ("iris")" 

MSE: (Extract with 'h20.mse') 0.07231598 

RMSE: (Extract with 'h20.rmse') 0.2689163 

Logloss: (Extract with 'h20.10gloss') 0.3153071 

Mean Per- Class Error: 0.09333333 

Confusion Matrix: Extract with 'h20.confusionMatrix (<model> ,train = TRUE)') 





Confusion Matrix: Row labels: Actual class; Column labels: Predicted class 


第 6 章 
分 类 方法 
setosa versicolor virginica Error Rate 
setosa 50 0 00.0000= 0/50 
versicolor 0 50 00.0000= 0/50 
virginica 0 14 36 0.2800= 14 / 50 
Totals 50 64 36 0.0933 = 14 / 150 





Top- 3 Hit Ratios: 
khit ratio 

11 0.906667 

22 1.000000 

33 1.000000 


6.4.4 人 工 神经 网 络 及 深度 学 习 的 特点 


1. 人 工 神 经 网 络 的 特点 

人 工 神 经 网 络 的 优点 主要 表现 在 以 下 三 个 方面 。 

(1) 具有 自学 习 功 能 。 例 如 实现 图 像 识 别 时 , 先 把 许多 不 同 的 图 像样 板 和 对 应 的 识别 
结果 输入 人 工 神 经 网 络 ,网 络 就 会 通过 自学 习 功 能 , 慢 慢 学 会 识别 类 似 的 图 像 。 自 学 习 功 能 
对 预测 有 特别 重要 的 意义 。 预 期 未 来 的 人 工 神经 网 络 计算 机 将 为 人 类 提供 经 济 预测 ,市场 
预测 ,效益 预测 ,其 应 用 前 途 远大 。 

(2) 具有 联想 存储 功能 。 用 人 工 神经 网 络 的 反馈 网 络 可 以 实现 这 种 联想 。 

(3) 具有 高 速 寻找 优化 解 的 能 力 。 寻 找 一 个 复杂 问题 的 优化 解 ,往往 需要 很 大 的 计算 
量 ,利用 一 个 针对 某 问 题 而 设计 的 反馈 型 人 工 神经 网 络 ,发 挥 计 算 机 的 高 速 运算 能 力 , 可 能 
很 快 找到 优化 解 。 

但 也 存在 以 下 一 些 缺 点 。 

(1) 最 严重 的 问题 是 没 能 力 解释 自己 的 推理 过 程 和 推理 依据 。 

(2) 不 能 向 用 户 提 出 必要 的 询问 ,而 且 当 数据 不 充分 的 时 候 , 神 经 网 络 无 法 进行 工作 。 

(3) 把 一 切 问题 的 特征 都 变 为 数字 ,把 一 切 推理 都 变 为 数值 计算 ,其 结果 势必 丢失 
信息 。 

(4) 人 工 神 经 网 络 对 训练 数据 中 的 噪声 非常 敏感 。 处 理 噪声 问题 的 一 种 方法 是 使 用 确 
认 集 来 确定 模型 的 泛 化 误差 , 另 一 种 方法 是 每 次 迭代 把 权 值 减少 一 个 因子 。 

2. 深度 学 习 特 点 

深度 学 习 的 优点 如 下 : 

(1) 在 计算 机 视觉 和 语音 识别 方面 效果 超过 传统 方法 。 

(2) 具有 较 好 的 transfer learning 性 质 。 

(3) 算法 可 以 快速 调整 ,适应 新 的 问题 。 

深度 学 习 的 缺点 如 下 : 

(1) 训练 耗 时 ,需要 大 量 数 据 进行 训练 ,模型 正确 性 验证 复杂 且 麻 烦 。 

(2) 训练 要 求 很 高 的 硬件 配置 , 某 些 深度 网 络 不 仅 训 练 而 且 线 上 部 署 也 需要 GPU 
支持 。 





(3) 模型 处 于 “黑箱 状态 ”, 难 以 理解 内 部 机 制 。 
(4) 元 参数 (Metaparameter) 与 网 络 拓扑 选择 困难 。 


65 支持 向 量 机 


6.5.1 支持 向 量 机 的 基本 思想 


支持 向 量 机 (Support Vector Machine, SVM) 是 由 Corinna Cortes 和 Vapnik 提出 的 一 
种 全 局 的 分 类 算法 ,通过 寻求 结构 化 风险 最 小 来 提高 学 习 机 泛 化 能 力 ,实现 经 验 风 险 和 置信 
范围 的 最 小 化 ,从 而 达到 在 统计 样本 量 较 少 的 情况 下 , 亦 能 获得 良好 统计 规律 的 目的 。 
SVM 属于 统计 学 习 理 论 范畴 ,由 于 其 良好 的 泛 化 能 力 , 成 为 机 器 学 习 的 常用 工具 。 

在 VC 维 理论 先导 下 ,支持 向 量 机 算法 逐渐 发 展 起 来 。SVM 算法 主要 在 最 优 分 类 面 背 
景 下 提出 ,SVM 的 基本 思想 如 图 6-3 描绘 的 二 维 情况 。 
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图 6-3 支持 向 量 机 


验证 SVM 算法 好 坏 的 方法 很 多 ,对 选 定 的 训练 样本 的 学 习 训练 准确 度 以 及 学 习 能 力 
是 经 常 考量 的 两 个 因素 。 支 持 向 量 机 主要 在 这 两 者 之 间 寻 找 最 佳 平衡 点 ,这 样 可 以 得 到 更 
好 的 推广 能 力 。 


6.5.2 支持 向 量 机 理论 基础 


在 如 图 6-3 所 绘 的 二 维 情况 中 ,@ 和 国 分 别 表示 两 类 样本 ,H 是 分 离 超 平面 ,万 和 万 ， 
平行 于 及。H 和 HH; 之 间 的 距离 是 分 类 间隙 ,并 且 没 有 训练 点 落 入 它们 中 间 。 最 优 分 类 面 
需要 尽量 达到 两 个 要 求 ,首要 要 求 使 两 类 样本 精确 地 归 类 ,再 一 个 要 求 将 两 类 样本 的 区 分 间 
隙 最 大 化 。 换 言 之 ,最 优 分 离 超 平面 零 错误 分 开 样 本 是 符合 结构 风险 最 小 化 准则 的 。 因 此 ， 
最 佳 分 离 超 平面 实际 转化 为 约束 条 件 下 求 最 优 解 。 给 定 某 个 有 NN 个 点 的 待 测 的 线性 可 分 
离 集合 {zi,yi) ,i 二 1,…,n, 这 里 yE {1, 一 1) 是 类 别 符号 。 在 d 维 情形 中 ,对 应 的 表达 式 为 

g(7) = wxz+tb (6-12) 





分 类 面 方 程 为 
wxZz+tb=0 (6-13) 


如 果 要 进行 归 一 化 操作 ,前 提 是 公式 (6-12) 中 的 g(z) 需 要 达到 g(x) 宇 1 的 要 求 。 不 
等 式 中 等 号 代表 最 靠近 分 类 面 的 样本 。 这 样 分 类 间隔 其 实 是 求 2/ ew | 的 值 , 若 要 让 这 个 
值 最 大 ,只 需 让 | zw | 最 小 。 我 们 希望 全 部 的 样本 尽 可 能 正确 归 类 ,数学 上 要 求 
yw zi)+6—1 二 1 (6-14) 
如 果 满 足 上 述 条 件 并 且 使 ‖w 上 等 于 最 小 值 ,得 到 的 值 就 是 我 们 所 需 的 最 优 分 类 面 。 
公式 (6-14) 中 的 等 号 所 指 的 样本 就 是 通常 所 说 的 支持 向 量 。 支 持 向 量 就 是 在 Hi 和 ,上 
的 全 和 国 , 这 些 点 比较 特殊 ,主要 是 因为 它 支 撑 了 最 优 分 类 面 。 
最 优 分 类 面 可 以 写成 公式 (6-15) 描 述 的 约束 化 问题 。 换 种 说 法 ,就 是 在 满足 公式 (6-14) 
的 条 件 下 ,计算 下 列 函 数 的 最 小 值 。 
$Cw) 一 二 | 用 (6-15) 
公式 (6-15) 的 最 小 值 计算 通常 运用 下 面 的 拉 格 朗 日 函数 


L(w,b,A) = (ww *w)— Dri{yiL lw “9 二 了 (6-16) 
$= 


N 
实质 上 分 类 问题 就 变 为 在 限制 条 件 > Niy; = 0 和 i 宇 0,i 二 1,2,…,N 下 ,求解 公式 
(6-17) 。 


max( DD EA?) (6-17) 
其 中 ,4; 和 4; 是 拉 格 朗 日 因子 。 对 于 线性 不 可 分 离 情 况 , 上 式 可 写 为 
max( > DaiyoK (ris)) (6-18) 


这 里 (x;,zj) 被 命名 为 核 函数 ,可 从 如 下 定义 的 典型 函数 中 选择 。 
线性 核 函 数 


天 (zizi) = Zixj (6-19) 
g 阶 多 项 式 内 积 函 数 
&Cziyzi) = (xIzj+1), gq>0 (6-20) 
径 向 基 内 积 函 数 
k(xisx)) = oo) (6-21) 
双 曲 面 正切 函数 
ACziyzi) = tanh(Bzyzi 十 7) (6-22) 


支持 向 量 机 可 以 采用 上 式 各 种 内 积 函 数 ,对 应 不 同 的 算法 。 我 们 可 以 根据 具体 的 应 用 
从 上 面 公 式 中 选择 不 同 的 函数 。 


6.5.3 支持 向 量 机 实例 

【 例 6-5】 以 过 尾 花 数据 集 为 例 建 立 支持 向 量 机 模型 ,实现 对 三 种 埋 尾 花 的 分 类 判别 
任务 。 

分 析 : 此 例 中 的 数据 源 于 1936 年 费 希 尔 发 表 的 一 篇 重要 论文 ,收集 了 三 种 葛 尾 花 ( 分 
别 标 记 为 setosa、versicolor 和 virginica) 的 花 莹 和 花 辩 数据 ,包括 花 莹 的 长 度 和 宽度 ,以 及 





花 泊 的 长 度 和 宽度 。 本 例 将 根据 这 四 个 特征 建立 模型 并 进行 分 类 判别 。 
第 一 步 : 安装 加 载 e1071 库 。 


>install .packages ("e1071") 
>1ibrary (e1071) 


e1071 软件 包 的 核心 函数 为 svm() ,也 是 建立 支持 向 量 机 模型 的 核心 函数 ,可 以 用 来 建 


立 一 般 情 况 下 的 回归 模型 ,也 可 以 用 来 建立 判别 分 类 模型 以 及 密度 估计 模型 。 


第 二 步 : iris 数据 准备 。 


>data (iris) # 获 取 数据 集 iris 

> summary(iris) “# 获 取 数据 集 的 概括 信息 

# 输 出 数据 集 的 概括 信息 

Sepal.Length Ssepal.Width Petal.Length Petal .Width 

Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 
1st Qu.:5.100 lst Qu. :2.800 1st Qu.:1.600 1st Qu.:0.300 
Median:5.800 Median :3.000 Median :4.350 Median :1.300 
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 


versicolor:50 
Virginica :50 


iris 基本 信息 : 包含 150 个 样本 和 4 个 样本 特征 。 结 果 标 签 有 三 个 类 别 , 权 重 都 是 50。 


结果 标签 setosa ,versicolor 及 virginica 是 意 尾 花 的 三 种 花 的 类 别 。 


第 三 步 : 建立 svm 模型 。 
svm() 函数 在 建立 支持 向 量 分 类 机 模型 时 有 两 种 建立 方式 。 
@ 根据 既定 公式 建立 模型 。 


>x=iris[,-5] # 提 取 数 据 中 除 第 五 列 以 外 的 数据 作为 特征 向 量 
>y=iris[,5] # 提 取 数 据 中 的 第 五 列 数据 作为 结果 变量 
>model= svm(x,y, kernel= "radial", 

>gamma= if (is.vector (x))lelsel/ncol (x) ) # 建 立 SVM 模型 

> summary (model) 结果 分 析 

# 查 看 model 模型 的 相关 结果 

Call: 

svm(formla= Species~ .,data=iris) 

Parameters: 

SVM- Type:C- classification 

SVM- Kernel:radial 

Cost:1 

Gamma:0.25 

Number of Support Vectors:51 

(8 22 21) 

Number of Classes:3 

Levels: 

Setosa versicolor virginica 


在 使 用 格式 中 建立 模型 时 ,不 需要 特别 强调 所 建立 模型 的 形式 ,函数 会 自动 将 所 有 输入 





的 特征 变量 数据 作为 建立 模型 所 需要 的 特征 向 量 。 


在 上 述 过 程 中 ,确定 核 函数 的 gamma 系数 时 所 使 用 的 R 语言 所 代表 的 意思 为 : 如 果 特 


征 向 量 是 向 量 , 则 gamma 值 取 1, 否 则 gamma 值 为 特征 向 量 个 数 的 倒数 。 


@ 根据 所 给 的 数据 建立 模型 。 
>model= svm(Species~ .vdata=iris) 


在 使 用 @@ 格 式 建立 模型 时 ,如 果 使 用 数据 中 的 全 部 特征 变量 作为 模型 特征 变量 ,可 以 简 





要 地 使 用 "Species 一 . "代替 全 部 的 特征 变量 。 


第 四 步 : 预测 判别 。 
样本 数据 建 模 之 后 ,主要 目的 就 是 利用 模型 进行 相应 的 预测 和 判别 。 在 用 svm( ) 函 数 


预测 时 ,我 们 将 用 自 带 函数 predict() 进 行 预 测 。 使 用 前 ,应 该 首先 确认 样本 数据 ,并 将 数据 
的 特征 变量 整合 放 入 同一 个 矩阵 中 。 


>x=iris[,1: 杀 # 确 认 需 要 进行 预测 的 样本 特征 矩阵 

>Pred= predict (model, x) # 根 据 模型 model 对 x 数 据 进行 预测 

>pred[ sample (1:150, 8)] 

# 随 机 挑选 8 个 结果 进行 展示 
43 115 24 6 100 51 68 

setosa virginica setosa setosa versicolor versicolor versicolor 
135 

virginica 

Levels:setosa versicolor virginica 


在 进行 预测 时 ,主要 问题 就 是 保证 用 于 预测 的 特征 向 量 个 数 一 致 ,否则 将 无 法 预测 结 


果 。 在 进行 预测 之 后 ,还 需要 检查 模型 预测 的 精度 ,这 就 需要 用 table( ) 函数 对 预测 结果 和 
真实 结果 作对 比 展示 。 

>table (pred, y) # 模 型 预测 精度 展示 

# 输 出 结果 

归 

pred setosa versicolor virginica 

setosa 50 0 0 

Versicolor 0 48 4 

Virginica 0 2 48 

第 五 步 : 综合 建 模 。 

>attach (iris) # 数 据 集 按 列 单独 确认 为 向 量 

> 六 subset (iris,select=- Species) # 确 认 特征 变量 为 数据 集 iris 中 除去 Species 的 其 他 项 

>y= Species # 确 认 结果 变量 为 数据 集 iris 中 的 Species 项 

>type=c("C- classification", "nuclassification", "one classification") 

# 确 认 将 要 使 用 的 分 类 方式 


>kernel=c ("linear", "polynomial", "radial", "sigmoid") # 确 定 将 要 使 用 的 核 函 数 
>Ppred= array(0,dim=c(150,3,4)) # 初 始 化 预测 结果 和 拢 阵 的 三 维 长 度 分 别 为 150.3 和 4 
>accuracy-matrix(0,3,4) ## 初 始 化 模型 精度 矩阵 的 两 维 分 别 为 3、4 
>yy=as.integer (y) # 为 方便 模型 精度 计算 ,将 结果 变量 数量 化 为 1.2 和 3 
>for(i in 1:3) 确认 i 影响 的 维度 代表 分 类 方式 





forG in 1:4) # 确 认 j 影 响 的 维度 代表 核 函数 
{ 
Pred[ ,i,j]=predict (svm(x,y, type=type[ i], kernel=kernel 
| 让) 
# 对 每 一 模型 进行 预测 
if(i>2) accuracy[ i,j]=sum(pred[ ,i,j]! =1) 
else accuracy[ i,j]=sum(pred[ ,i,j]! =yy) 


} 
} 
>dimnames (accuracy)=1ist (type,kernel) “## 确 定 模型 精度 变量 的 列 名 和 行 名 


综合 建 模 的 作用 : 利用 C-classification 与 高 斯 核 函 数 结合 的 模型 判别 错误 最 少 。 如 果 


只 为 错误 率 最 小 并 且 在 代价 相同 的 情况 下 ,那么 直接 可 以 把 这 种 结合 当 作 最 优 的 模型 ,而 且 


模型 预测 结果 如 下 : 
>table (pred[ ,1,3],y) 
# 模 型 预测 精度 展示 
了 
setosa versicolor virginica 

1 50 0 0 

2 0 48 也 

3 0 笃 48 


第 六 步 : 可 视 化 分 析 。 
在 建立 支持 向 量 机 模型 之 后 ,还 需 进一步 分 析 模 型 ,模型 可 视 化 便于 对 模型 的 分 析 ,在 


分 析 过 程 中 ,用 R 自 带 函数 plot() 对 可 视 化 模型 进行 绘制 ,结果 如 图 6-4 所 示 。 


>plot (cmdscale (dist (iris[,-5])), 

>col=c("red", "black", "gray")[as.integer (iris[ ,5])], 

>pch=c("o","+")[1:150 s ins model$index + ]]) # 绘 制 模型 分 类 三 点 图 

> legend (2,0.8,c ("setosa", "versicolor", "virginica"),col=c("red","black", "gray"), lty= 1) 
# 标 记 图 例 


= 





cmdscale(dist(iris[, -5]))[, 2] 


3 2 -1 0 1 2 3 4 
emdscale(dist(iris[, -SI)[, 1] 


图 6-4 支持 向 量 机 模型 可 视 化 结果 


在 使 用 plot() 函 数 对 所 建立 的 模型 进行 总 体 观察 后 ,还 可 以 利用 plot() 函数 对 模型 进 


行 其 他 角度 的 可 视 化 分 析 。 可 以 利用 plot() 函数 对 模型 类 别 关于 模型 中 任意 两 个 特征 向 量 
的 变动 过 程 进行 绘图 ,过 程 与 图 像 如 下 : 


>data (iris) 

>model= svm(Species~ .,data=iris) ## 利 用 公式 格式 建立 模型 

>plot (model, iris, Petal .Width~ Petal .Length, fill=FALSE, 

> symbolPalette=c ("red", "black", "grey") , svSymbol="+") 

# 绘 制 模型 类 别 关 于 花 宽度 和 长 度 的 分 类 情况 ,如 图 6- 5 所 示 

>Legend(1,2.5,c ("setosa", "versicolor", "virginica") ,col=c ("red", "black", "gray") ,1ty=1) # 标 


记 图 例 
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图 6-5 关于 花 宽度 和 长 度 的 分 类 情况 的 模型 类 别 


通过 模型 关于 花 浙 的 宽度 和 长 度 对 模型 类 别 分 类 影响 的 可 视 化 后 ,我 们 仍然 可 以 得 到 
同 图 一 致 的 结果 : setosa 类 别 的 花 浙 同 另外 两 个 类 别 相差 较 大 ,而 versicolor 类 别 的 花 浙 同 
virginica 类 别 的 花 浙 相差 较 小 。 

通过 模型 可 视 化 图 形 可 以 看 出 ,virginica 类 别 的 花瓣 在 长 度 和 宽度 的 总 体 水 平 上 都 高 
于 其 他 两 个 类 别 , versicolor 类 别 的 花瓣 在 长 度 和 宽度 的 总 体 水 平 上 处 理 居中 位 置 ,而 
setosa 类 别 的 花瓣 在 长 度 和 宽度 上 都 比 另外 两 个 类 别 小 。 

第 七 步 : 优化 建 模 。 

通过 对 模型 的 可 视 化 分 析 后 ,无 论 从 总 体 的 角度 观察 ,还 是 从 模型 个 别 特征 的 角度 观 
察 ,都 可 以 得 到 一 致 的 结论 : 类 别 setosa 较 其 他 两 个 类 别 的 差异 较 大 ,而 类 别 versicolor 与 
类 别 virginica 差异 较 小 ,直观 上 能 看 到 两 部 分 有 少许 交叉 。 在 预测 结果 中 ,模型 出 现 判别 
错误 的 地 方 也 是 混淆 了 类 别 versicolor 与 类 别 virginica。 

针对 这 种 情况 ,可 以 想到 通过 改变 模型 各 个 类 别 的 比重 来 对 数据 进行 调整 。 由 于 类 别 
setosa 同 其 他 两 个 类 别 的 相差 较 大 ,所 以 可 以 考虑 降低 类 别 setosa 在 模型 中 的 比重 ,而 提高 另 
外 两 个 类 别 的 比重 , 即 适 当 牺 牲 类 别 setosa 的 精度 来 提高 其 他 两 个 类 别 的 精度 。 

>wts=c(1,1,1) # 确 定 模型 各 个 类 型 的 比重 为 1:1:1 

>names (wts)=c ("setosa", "versicolor", "virginica") 间 确 定 各 个 比重 对 应 的 类 别 

>model1= svm(x,yrclass.weights=wts) # 建 立 模型 

>wts=c(1,100,100) # 确定 模型 各 个 类 别 的 比重 为 1:100:100 

>names (wts)=c ("setosa", "versicolor", "virginica") # 确 定 各 个 比重 对 应 的 类 别 

>mode12= svm (x,y,class.weights=wts) # 建 立 模型 

>pred2=predict (model2,x) “ ## 根 据 模型 进行 预测 

>table (pred?, y) 

## 展 示 预 测 结果 


y 
Pred2 setosa versicolor virginica 





大 数据 
挖掘 
setosa 50 0 0 
versicolor 0 48 2 
virginica 0 2 48 
>wts=c(1,500, 500) 


>names (wts)=c ("setosa", "versicolor", "virginica") 
>mode13= svm (x,y,class.weights=wts) 
>pred3=predict (model3, x) 

>table (pred3,y) 


# 展 示 预 测 结果 

pred2 setosa versicolor virginica 
Setosa 50 0 0 
Versicolor 0 50 0 
Virginica 0 0 50 


6.5.4 支持 向 量 机 的 特点 


支持 向 量 机 在 解决 小 样本 、 非 线性 及 高 维 模式 识别 中 表现 出 许多 特有 的 优势 ,能 够 同时 
最 小 化 经 验 误差 与 最 大 化 几何 边缘 区 ,因此 也 被 称 为 最 大 边缘 区 分 类 器 ,并 能 够 推广 应 用 到 
函数 拟 合 等 其 他 机 器 学 习 问 题 中 。 

SVM 有 如 下 主要 几 个 特点 。 

(1) 非 线性 映射 是 SVM 方法 的 理论 基础 ,SVM 利用 内 积 核 函数 代替 向 高 维 空间 的 非 
线性 映射 。 

(2) 对 特征 空间 划分 的 最 优 超 平面 是 SVM 的 目标 ,最 大 化 分 类 边际 的 思想 是 SVM 方 
法 的 核心 。 

(3) 支持 向 量 是 SVM 的 训练 结果 ,在 SVM 分 类 决策 中 起 决定 作用 的 是 支持 向 量 。 

(4) SVM 是 一 种 有 坚实 理论 基础 的 新 颖 的 小 样本 学 习 方法 。 它 基本 上 不 涉及 概率 测 
度 及 大 数 定律 等 ,因此 不 同 于 现 有 的 统计 方法 。 从 本 质 上 看 , 它 避 开 了 从 归纳 到 演绎 的 传统 
过 程 ,实现 了 高 效 的 从 训练 样本 到 预报 样本 的 “ 转 导 推 理 ”, 大 大 简化 了 通常 的 分 类 和 回归 等 
问题 。 

(5) SVM 的 最 终 决 策 函数 只 由 少数 的 支持 向 量 所 确定 ,计算 的 复杂 性 取决 于 支持 向 量 
的 数目 ,而 不 是 样本 空间 的 维 数 ,这 在 某 种 意义 上 避免 了 “ 维 数 灾难 ”。 

(6) 少数 支持 向 量 决 定 了 最 终结 果 , 不 但 可 以 帮助 我 们 抓 住 关键 样本 ,剔除 "大 量 元 余 
样本 ,注定 了 该 方法 不 但 算法 简单 ,而 且 具 有 较 好 的 鲁 棒 性 。 这 种 鲁 棒 性 主要 体现 在 : 
吕 增 、 删 非 支持 向 量 样本 对 模型 没有 影响 ; @ 支 持 向 量 样本 集 具 有 一 定 的 鲁 棒 性 ; 有 些 
成 功 的 应 用 中 ,SVM 方法 对 核 的 选取 不 敏感 。 

有 以 下 两 点 不 足 。 

(1) SVM 算法 对 大 规模 训练 样本 难以 实施 。 由 于 SVM 是 借助 二 次 规划 来 求解 支持 向 
量 ,而 求解 二 次 规划 将 涉及 m 阶 和 矩阵 的 计算 Cm 为 样本 的 个 数 ) , 当 mm 数目 很 大 时 该 矩阵 的 
存储 和 计算 将 耗费 大 量 的 机 器 内 存 和 运算 时 间 。 

(2) 用 SVM 解决 多 分 类 问题 存在 困难 。 经 典 的 支持 向 量 机 算法 只 给 出 了 二 类 分 类 的 
算法 ,而 在 数据 挖掘 的 实际 应 用 中 ,一 般 要 解决 多 类 的 分 类 问题 。 可 以 通过 多 个 二 类 支持 向 
量 机 的 组 合 等 方法 来 解决 ,主要 原理 是 克服 SVM 固有 的 缺点 ,结合 其 他 算法 的 优势 ,解决 














多 类 问题 的 分 类 精度 。 


小 结 
分 类 思想 是 大 数据 挖掘 中 的 基本 应 用 ,本 章 综 述 了 不 同 分 类 算法 的 思想 和 特性 ,详细 介 
绍 了 经 典 的 KK- 近邻 算法 ,朴素 贝 叶 斯 分 类 算法 的 基本 原理 ,场景 特点 和 基本 应 用 ,阐述 了 神 
经 网 络 与 深度 学 习 、 线 性 判别 分 析 、 支 持 向 量 机 等 分 类 算法 ,分 析 不 同 算法 的 特点 ,以 及 各 类 
方法 在 R 语 言 中 的 应 用 。 





分 类 的 基本 原理 十 主要 分 类 方法 十 K- 近 邻 分 类 算法 十 算法 实例 十 贝 叶 斯 概述 十 分 类 原理 十 
性 能 评价 标准 . mp4(4. 85MB) 特点 . mp4(8. 18MB) 分 类 实例 . mp4(12.7MB) 





神经 网 络 基本 原理 十 深度 学 习 十 分 支持 向 量 机 基本 思想 十 实例 十 特 
类 实例 . mp4(10. 6MB) 点 .mp4(10.5MB) 
习 题 
1. 填空 


(1) 在 KNN 的 设计 过 程 中 ,用 来 计算 对 象 之 间距 离 的 默认 方式 是 

(2) 分 类 中 主要 的 分 类 方法 有 

(3) 贝 叶 斯 公式 可 以 表示 为 

(4) 欧 氏 距离 计算 公式 (所 有 样本 都 有 M 个 属性 ) distance(X,Y)== 











(5) 朴素 贝 叶 斯 分 类 因为 被 称 为 “朴素 的 ”。 

(6) 深度 学 习 的 概念 源 于 的 研究 。 

(7) 神经 网 络 可 以 指向 两 种 : 一 种 是 ; 男 一 种 是 a 

(8) SVM 中 用 于 创建 两 个 类 之 间 的 最 大 间隔 被 称 为 

(9) 判别 分 析 根 据 判 别 标准 不 同 ,可 以 分 为 等 。 

(10) 判别 分 析 通 常 要 设法 建立 一 个 判别 函数 ,然后 利用 此 函数 来 进行 批判 ,判别 函数 
主要 有 两 种 , 即 和 

2. 选择 题 


(1) 在 kknn() 函 数 中 ,参数 train, 代 表 ( ) 


大 数据 
人 
A. 训练 集 B. 测试 集 C. 距离 函数 D. 近邻 数量 
(27 CK, YY = py | zi 一 yi | 是 ( ) 距 离 公式 。 
A. 明 可 夫 斯 基 B. 曼哈顿 
C. 马 哈 拉 诺 比 斯 D. 切 比 雪 夫 


(3) 已 知事 件 A 与 事件 B 发 生 与 和 否 伴随 出 现 , 根 据 贝 叶 斯 公式 可 得 到 PCBIA)= 王 P(CAI 
B) * M/P(A), 则 M=( $s 
A. P(AB) B. P(B) C. P(A) D. P(B) 
(4) 一 个 人 参加 宴会 为 真 的 概率 为 0.2, 如 果 他 参加 宴会 后 醉酒 为 真 的 概率 为 0.7, 那 
么 他 醉酒 为 假 的 概率 是 ( LL 
A. 0.14 B. 0.06 C. 0.86 D. 0.56 
(5) 关于 朴素 贝 叶 斯 分 类 器 说 法 正确 的 是 ( 几 
A. 朴素 分 类 器 的 假设 是 当 给 定 类 变量 时 ,属性 变量 之 间 条 件 独立 
B. 朴素 分 类 器 具有 较 高 的 分 类 准确 性 
C. 朴素 分 类 器 具有 星 形 结构 
D. 由 于 朴素 分 类 器 具有 星 形 结构 ,因此 能 够 有 效 利用 变量 之 间 的 依赖 关系 
(6) 支持 向 量 机 可 以 用 于 ( ) 问 题 。 
A. 降 维 B. 回归 C. 分 类 D. 到 类 
(7) 当 得 到 一 个 新 的 样品 数据 后 ,要 确定 该 样品 属于 已 知 类 型 中 哪 一 类 ,这 类 问题 属于 
( 和 
A. 线性 回归 B. 判别 分 析 C. 模式 识别 D. 优化 计算 
(8) 神经 网 络 中 能 将 神经 元 的 净 输 入 信号 转换 成 单一 的 输出 信号 ,以 便 进一步 在 网 络 
中 传播 的 特征 的 是 ( ys 





A. 激活 函数 B. 网 络 拓扑 C. 训练 算法 D. 神经 元 
(9) 给 定 贝 叶 斯 公式 P(cjlz) = 二 (P(x1cj)P(c)))/P(z) ,公式 中 Plcj|z) 为 ( )。 

A. 先 验 概率 B. 后 验 概率 C. 全 概率 D. 联合 概率 
(10) 贝 叶 斯 网 络 主要 应 用 的 领域 有 ( ys 

A. 模式 识别 B. 辅助 智能 决策 。” C. 医疗 诊断 D. 数据 融合 
3. 简 答题 


(1) 贝 叶 斯 网 络 模型 的 过 程 是 什么 ? 
(2) 分 类 器 性 能 评价 标准 有 哪些 ? 

(3) 简 述 朴素 贝 叶 斯 分 类 流程 。 

(4) 朴素 贝 叶 斯 算法 的 优点 有 哪些 ? 

(5) 激活 函数 的 定义 与 作用 是 什么 ? 

(6) 试 述 判别 分 析 的 实质 。 

(7) 简 述 神经 网 络 的 运作 过 程 。 

(8) 如 何 判断 深度 神经 网 络 是 否 过 拟 合 ? 


【内 容 摘要 】 本 章 主要 讲解 聚 类 的 概念 、 类 的 度量 方法 以 及 K 均值 .层次 聚 类 、 神 经 网 
络 聚 类 等 各 种 聚 类 方法 ,并 配 以 实例 解析 。 对 并 行 聚 类 分 析 、 基 于 MapReduce 的 聚 类 分 析 
及 其 他 聚 类 方法 一 一 基于 粒度 的 聚 类 方法 . 谱 聚 类 、 核 聚 类 、 量 子 聚 类 等 作 了 延伸 学 习 。 

【学 习 目 标 】 掌握 聚 类 的 基本 概念 以 及 类 的 度量 方法 ; 掌握 K 均值 .层次 聚 类 、 神 经 网 
络 等 各 种 常用 聚 类 算法 的 基本 原理 和 各 自 的 特点 ; 能 够 在 实际 应 用 中 根据 应 用 场景 选择 合 
适 的 聚 类 方法 ; 了 解 在 大 数据 环境 下 聚 类 分 析 方 法 的 扩展 以 及 面临 的 问题 。 


71 聚 类 分 析 方 法 概述 


聚 类 分 析 又 称 群 分 析 , 它 是 研究 (样品 或 指标 ) 分 类 问题 的 一 种 统计 分 析 方法 ,同时 也 是 
数据 挖掘 的 一 个 重要 算法 。 

聚 类 分 析 是 由 若干 模式 组 成 的 。 模 式 通常 是 一 个 度量 的 向 量 , 或 者 是 多 维 空间 中 的 一 
个 点 。 聚 类 分 析 以 相似 性 为 基础 ,在 一 个 聚 类 中 的 模式 之 间 比 不 在 同一 聚 类 中 的 模式 之 间 
具有 更 多 的 相似 性 。 本 章 将 选取 普及 性 最 广 . 最 实用 .最 具有 代表 性 的 几 种 聚 类 算法 作 详 要 
讲解 ,其 他 聚 类 算法 作 简 单 扩展 讲解 。 


7.1.1 聚 类 的 基本 概念 


1. 聚 类 的 概念 

将 物理 或 抽象 对 象 的 集合 分 成 由 类 似 的 对 象 组 成 的 多 个 类 或 簇 (Cluster) 的 过 程 被 称 
为 聚 类 (Clustering)。 由 聚 类 所 生成 的 秘 是 一 组 数据 对 象 的 集合 ,这 些 对 象 与 同一 个 秘 中 对 
象 相似 度 较 高 ,与 其 他 簇 中 的 对 象 相似 度 较 低 。 相 似 度 是 根据 描述 对 象 的 属性 值 来 度量 的 ， 
距离 是 经 常 采用 的 度量 方式 ,分 析 事 物 聚 类 的 过 程 称 为 聚 类 分 析 , 又 称 群 分 析 。 

由 于 聚 类 的 对 象 与 同一 个 秘 中 的 对 象 彼此 相似 ,与 其 他 簇 中 的 对 象 相 异 。 所 以 ,在 许多 
应 用 中 ,可 以 将 一 个 往 中 的 数据 对 象 作 为 一 个 整体 来 对 待 。 在 许多 应 用 中 , 徐 的 概念 没有 严 
格 定义 ,其 最 好 的 定义 应 该 依赖 于 数据 的 特性 和 期 望 的 结果 ,同一 个 徐 的 样本 空间 是 靠拢 在 
一 起 的 。 图 7-1 显示 了 将 18 个 点 划分 成 簇 的 3 种 不 同方 法 。 

聚 类 分 析 的 实现 过 程 为 : 首先 进行 数据 预 处 理 , 进 行 数据 的 标准 化 。 数 据 预 处 理 包 括 
选择 数量 .类 型 和 特征 的 标 度 ,进行 特征 选择 和 特征 抽取 ,剔除 孤立 点 等 。 然 后 构造 关系 / 距 
离 矩 阵 , 对 亲 牙 关系 进行 描述 。 再 选择 不 同方 法 进行 聚 类 。 最 后 确定 最 佳 分 类 ,确定 类 
别 数 。 


ee A 中 
@ @ 公 A 时 
@ @ 国 
Se 0% ee MA 人 mn HP 
(a) 原来 的 点 (b) 2 个 簇 
A 全 @ A 
$° ee 2 2 
Po 
(c) 4 个 敌 (d) 6 个 簇 


图 7-1 相同 点 集 的 不 同 聚 类 方法 

2. 聚 类 算法 

聚 类 算法 的 选择 取决 于 数据 的 类 型 聚 类 的 目的 。 可 以 对 同样 的 数据 尝试 多 种 聚 类 算 
法 并 比较 结果 ,以 发 现 数 据 可 能 揭示 的 结果 。 

主要 的 聚 类 算法 有 : 基于 划分 的 方法 、 基 于 层次 的 方法 、 基 于 密度 的 方法 、 基 于 网 格 的 
方法 以 及 基于 模型 的 方法 。 

1) 基于 划分 的 聚 类 方法 

对 于 给 定 的 包含 个 样本 的 数据 集 , 基 于 划分 的 聚 类 方法 可 将 数据 划分 为 & 个 组 , 即 构 
建 数据 的 上 个 划分 ,每 个 划分 表示 一 个 聚 徐 ,并 且 kn。 同 时 满足 以 下 要 求 。 

(1) 每 个 组 至 少 包含 一 个 对 象 。 

(2) 每 个 对 象 必须 属于 且 仅 属 于 一 个 组 。 

给 定 要 构建 的 划分 数目 ,划分 方法 首先 创建 一 个 初始 划分 ,然后 采用 一 种 迭代 的 重 定 
位 技术 ,尝试 通过 对 象 在 划分 间 移 动 来 改进 划分 。 好 的 划分 的 准则 是 : 在 同一 类 中 的 对 象 
之 间 尽 可 能 “接近 ”或 相关 ,而 不 同类 中 的 对 象 之 间 尽 可 能 “远离 ”或 不 同 。 为 了 达到 全 局 最 
优 ,基于 划分 的 聚 类 会 要 求 穷 举 所 有 可 能 的 划分 。 有 两 个 常用 的 启发 式 方法 : 一 是 聚 于 质 
心 的 技术 K- 平 均 方法 ; 二 是 基于 有 代表 性 的 对 象 的 技术 K- 中 心 点 方法 。 

2) 基于 层次 的 聚 类 方法 

基于 层次 的 聚 类 方法 可 将 数据 对 象 组 成 一 棵 聚 类 的 树 。 根 据 层次 分 解 是 自 底 向 上 还 是 
自 顶 向 下 形成 的 ,基于 层次 的 聚 类 方法 可 以 进一步 分 为 凝聚 的 和 分 裂 的 层次 聚 类 。 

(1) 凝聚 的 层次 聚 类 : 按照 自 底 向 上 的 策略 首先 将 每 个 对 象 作 为 单独 的 一 个 簇 ,然后 
将 这 些 原子 徐 合 并 为 越 来 越 大 的 簇 ,直到 所 有 的 对 象 都 在 一 个 簇 中 ,或 者 达到 某 个 终止 
条 件 。 

(2) 分 裂 的 层次 聚 类 : 与 凝聚 的 层次 聚 类 相反 ,按照 自 顶 向 下 的 策略 。 首 先 将 所 有 的 
对 象 壮 于 一 个 徐 中 。 然 后 逐渐 细 分 为 越 来 越 小 的 簇 直到 每 个 对 象 在 单独 的 一 个 簇 中 ,或 者 
达到 一 个 终止 条 件 , 如 达到 了 某 个 希望 的 复数 目 或 者 两 个 徐 之 间 的 距离 超过 了 某 个 阔 值 。 

3) 基于 密度 的 聚 类 方法 

基于 划分 的 聚 类 方法 是 按照 对 象 之 间 的 距离 进行 聚 类 ,这 样 的 方法 只 能 发 现 球状 的 复 。 
基于 密度 的 聚 类 方法 是 将 艇 看 作 是 数据 空间 中 被 低 密度 区 域 分 割 开 的 高 密度 区 域 。 其 主要 
思想 是 : 只 要 邻近 区 域 的 密度 (对 象 或 数据 点 的 数目 ) 超 出 了 某 个 阀 值 ,就 继续 聚 类 。 也 就 
是 说 ,对 给 定 类 中 的 每 个 数据 点 ,在 一 个 给 定 范围 的 区 域 中 必须 至 少 达到 某 个 数目 的 点 。 这 





样 的 方法 可 以 用 来 过 滤 “ 噪 声 ? 孤 立 点 数据 ,发 现任 意 形状 的 簇 。 该 方法 有 两 种 典型 的 算法 : 
一 种 是 DBSCAN 算法 , 它 根 据 一 个 密度 辣 值 来 控制 簇 的 增长 ; 另 一 种 是 OPTICS 算法 , 它 
为 自动 的 和 交互 的 聚 类 分 析 计算 一 个 聚 类 顺序 。 

4) 基于 网 格 的 聚 类 方法 

基于 网 格 的 聚 类 方法 是 把 对 象 空间 量化 为 有 限 数目 的 单元 ,形成 一 个 网 格 结构 ,所 有 的 
聚 类 操作 都 在 这 个 网 格 结构 ( 即 量化 的 空间 ) 上 进行 。 这 种 方法 的 主要 优点 是 处 理 速度 快 ， 
其 处 理 时 间 独 立 于 数据 对 象 的 数目 ,只 与 量化 空间 中 的 每 一 维 的 单元 数目 有 关 。 

基于 网 格 的 聚 类 方法 的 典型 算法 有 : DSTING 算法 , 它 利 用 存储 在 网 格 单元 中 的 统计 
信息 ; @WaveCluster 算法 , 它 利 用 一 种 小 波 变换 方法 来 聚 类 对 象 ; BCLIQUE 算法 , 它 是 
在 高 维 数据 空间 中 基于 网 格 和 密度 的 聚 类 方法 。 

5) 基于 模型 的 聚 类 方法 

基于 模型 的 聚 类 方法 是 基于 这 样 的 假设 : 数据 是 根据 潜在 的 概率 分 布 生成 的 。 它 为 每 
一 个 徐 假 定 一 个 模型 ,寻找 数据 对 给 定 模 型 的 最 佳 拟 合 。 一 个 基于 模型 的 算法 可 通过 构建 
反映 数据 点 空间 分 布 密度 函数 来 定位 聚 类 ,或 基于 标准 的 统计 数字 自动 决定 聚 类 的 数目 , 考 
虑 "噪声 ”数据 或 孤立 点 ,从 而 产生 健壮 的 聚 类 方法 。 基 于 模型 的 方法 主要 有 统计 学 方法 和 
神经 网 络 方法 两 类 。 其 中 ,统计 学 方法 有 COBWEB 算法 ,网络 神经 方法 有 SOM 算法 。 

以 上 每 一 类 聚 类 算法 中 都 存在 着 得 到 广泛 应 用 的 算法 。 例 如 ,划分 方法 中 的 K-Means 
聚 类 算法 、 层 次 方法 中 的 凝聚 型 层次 聚 类 算法 、 模 型 方法 中 的 神经 网 络 聚 类 算法 等 。 

有 时 将 某 个 给 定 的 应 用 场景 数据 划分 为 属于 某 个 聚 类 方法 是 困难 的 ,需要 考虑 集成 多 
种 聚 类 方法 的 思想 。 同 时 , 某 些 应 用 可 能 有 特定 的 聚 类 标准 ,也 要 求 综合 多 个 聚 类 技术 。 

6) 其 他 聚 类 方法 一 一 视觉 聚 类 算法 

视觉 聚 类 算法 是 基于 尺度 空间 理论 建立 的 。 其 基本 思想 是 : 将 数据 集 看 作 图 像 ,将 数 
据 建 模 问题 看 作 认 知 问题 ,通过 模拟 认 知 心理 学 的 格式 塔 原理 与 生物 视觉 原理 解决 问题 。 
格式 塔 原理 (Gestalt) 就 是 物体 的 整体 是 由 局 部 特征 组 织 在 一 起 的 认 知 原则 ,包含 相似 率 、 
连续 率 、 闭 合 率 、 近 邻 率 、 对 称 率 , 将 这 五 者 作为 聚 类 的 基本 原则 ,模拟 人 的 眼睛 由 近 到 远 观 
察 景物 的 过 程 设 计算 法 进行 聚 类 。 随 着 由 近 到 远 ,观察 尺度 由 小 变 大 ,所 看 到 的 景物 层次 会 
逐渐 变化 ,这 就 是 一 个 聚 类 的 过 程 。 

视觉 聚 类 的 关键 是 最 佳 聚 类 个 数 的 选择 。 随 着 尺度 由 小 变 大 , 聚 类 个 数 逐 渐变 少 ,但 会 
出 现 尺度 变化 大 而 聚 类 个 数 稳 定 不 变 的 情况 ,这 意味 着 这 个 聚 类 个 数 存 活 周 期 最 长 , 即 最 佳 
聚 类 个 数 。 

3. 不 同 聚 类 方法 的 特性 比较 

从 聚 类 的 类 型 可 知 , 聚 类 类 型 大 致 分 为 : 层次 的 ( 嵌 套 的 ) 与 划分 的 ( 非 谋 套 的 ), 互 斥 
的 、 重 全 的 与 模糊 的 ,完全 的 与 部 分 的 。 

(1) 层次 的 与 划分 的 不 同类 型 的 聚 类 的 差别 是 : 簇 的 集合 是 嵌 套 的 还 是 非 嵌 套 的 ,或 
者 是 层次 的 还 是 划分 的 。 划 分 聚 类 简单 地 将 数据 对 象 集 划分 成 不 重 琶 的 子 集 (得 ), 使 得 每 
个 数据 对 象 恰 在 一 个 子 集中 。 如 果 人 允许 位 具有 子 能 , 则 得 到 一 个 层次 聚 类 。 层 次 聚 类 是 骨 
套 簇 的 集 簇 ,组 织 成 一 棵 树 。 除 叶 结 点 外 , 树 中 每 一 个 结 点 ( 簇 ) 都 是 其 子女 ( 子 簇 ) 的 父 ,而 
树 根 是 包含 所 有 对 象 的 艇 ,树叶 是 单个 数据 对 象 的 单元 素 簇 。 

(2) 互 斥 的 、 重 全 的 与 模糊 的 簇 都 是 互 斥 的 ,虽然 每 个 对 象 都 被 指派 到 单个 簇 ,但 有 时 





也 可 以 合理 地 将 一 个 点 放 到 多 个 簇 中 。 例 如 ,在 大 学 里 ,一 个 人 可 能 既是 学 生 , 又 是 雇员 。 
当 对 象 在 两 个 或 多 个 簇 “ 之 间 ” ,并且 可 以 合理 地 指派 到 这 些 簇 中 的 任何 一 个 时 ,也 常常 可 以 
使 用 非 互 斥 聚 类 。 在 模糊 聚 类 中 , 复 被 视 为 模糊 集 ,每 个 对 象 以 0 和 1 之 间 的 权 值 属 于 任何 
一 个 集合 , 当 对 象 接 近 多 个 簇 时 ,避免 将 对 象 随 意 地 指派 到 一 个 徐 。 通 常 将 对 象 指派 到 具有 
最 高 隶属 权 值 或 概率 的 簇 ,将 模糊 或 概率 聚 类 转换 成 互 斥 聚 类 。 

(3) 完全 的 聚 类 会 将 每 个 对 象 指派 到 一 个 徐 ,而 部 分 聚 类 数据 集中 针对 某 些 可 能 不 属 
于 明确 定义 的 簇 的 对 象 。 数 据 集中 的 一 些 对 象 可 能 代表 噪声 、 离 群 点 或 “不 感 兴 趣 的 背景 ”。 

4. 徐 的 类 型 与 特性 

聚 类 旨 在 发 现 有 用 的 对 象 组 ( 即 徐 ), 有 用 性 是 由 挖掘 目标 定义 的 。 一 个 簇 的 每 个 对 象 
到 同 簇 中 每 个 对 象 的 距离 比 到 不 同 簇 中 任意 对 象 的 距离 都 近 或 更 加 相似 。 有 时 ,使 用 一 个 
闵 值 来 说 明 簇 中 所 有 对 象 相互 之 间 必 须 有 充分 的 接近 度 。 明 显 分 离 的 簇 不 只 是 球形 的 ,还 
可 以 具有 任意 形状 。 主 要 的 徐 有 基于 原型 的 徐 、 基 于 图 的 簇 、 基 于 密度 的 簇 。 

(1) 基于 原型 的 艇 是 在 对 象 的 集合 中 每 个 对 象 到 定义 该 艇 的 原型 的 距离 比 到 其 他 簇 的 
原型 的 距离 更 近 或 更 加 相似 。 对 于 具有 连续 属性 的 数据 ,得 的 原型 通常 是 质心 , 即 复 中 所 有 
点 的 平均 值 。 当 质心 没有 意义 时 ,如 当 数 据 具 有 分 类 属性 时 ,原型 通常 是 中 心 点 , 即 复 中 最 
有 代表 性 的 点 。 对 于 许多 数据 类 型 ,原型 可 以 视 为 最 靠近 中 心 的 点 ,这 种 簇 趋 向 于 呈 球 状 。 

(2) 如 果 数 据 用 图 表示 ,其 中 的 节点 是 对 象 ,而 边 代 表 对 象 之 间 的 联系 , 则 基于 图 的 能 
可 以 定义 为 连通 分 支 , 即 互相 连通 但 不 与 组 外 对 象 连通 的 对 象 组 。 基 于 图 的 复 的 一 个 重要 
例子 是 基于 邻近 的 得, 其 中 两 个 对 象 是 相连 的 , 仅 当 它们 的 距离 在 指定 的 范围 内 , 且 每 个 对 
象 到 该 徐 某 个 对 象 的 距离 比 到 不 同 簇 中 任意 点 的 距离 更 近 。 

(3) 在 基于 密度 的 簇 中 , 簇 表示 为 对 象 的 稠密 区 域 , 且 被 低 密度 的 区 域 环绕 。 可 认为 簇 
是 具有 某 种 共同 性 质 的 对 象 的 集合 。 例 如 ,基于 中 心 的 簇 中 的 对 象 都 具有 共同 的 性 质 , 它 们 
都 离 相 同 的 质心 或 中 心 点 最 近 。 当 具有 了 噪声 和 离 群 点 时 ,常常 使 用 基于 密度 的 簇 。 


7.1.2 类 的 度量 方法 


因为 聚 类 是 将 数据 对 象 划 分 为 若干 类 ,同一 类 的 对 象 具 有 较 高 的 相似 度 , 不 同类 的 对 象 
相似 度 较 低 。 因 此 , 聚 类 的 关键 是 如 何 度量 对 象 间 的 相似 性 。 样 本 或 变量 间 亲 政 程度 的 测 
度 方法 有 两 种 。 

(1) 相似 系数 。 性 质 越 接 近 的 变量 或 样本 ,它们 的 相似 系数 越 接近 于 1 或 一 1, 而 彼此 
无 关 的 变量 或 样本 的 相似 系数 则 越 接 近 于 0, 相 似 的 为 一 类 ,不 相似 的 为 不 同类 。 

(2) 距离 。 它 是 将 每 一 个 样本 看 作 p 维 空间 的 一 个 点 ,并 用 某 种 度量 测量 点 与 点 之 间 
的 距离 ,距离 较 近 的 归 为 一 类 ,距离 较 远 的 点 应 属于 不 同 的 类 。 

凡是 满足 唯一 性 、 非 负 性 、 对 称 性 和 三 角 不 等 式 的 函数 都 可 以 作为 距离 公式 。 常 用 的 距 
离 公 式 有 欧 氏 距离 (Euclid) .曼哈顿 距离 (Manhattan)、 切 比 雪夫 距离 (Chebyshev) 、 马 哈 拉 
诺 比 斯 距离 (Mahalanobis) 等 。 

类 间距 离 的 度量 方法 如 下 。 

| 最 短 距离 法 : 以 两 类 中 距离 最 近 的 两 个 个 体 之 间 的 距离 作为 类 间距 离 。 

@ 最 长 距离 法 : 以 两 类 中 距离 最 远 的 两 个 个 体 之 间 的 距离 作为 类 间距 离 。 

@ 组 间 平 均 连 接 法 : 以 两 类 个 体 两 两 之 间距 离 的 平均 数 作 为 类 间距 离 。 




















图 组 内 平均 连接 法 : 将 两 类 个 体 合并 为 一 类 后 ,以 合并 后 类 中 所 有 个 体 之 间 的 平均 距 
离 作 为 类 间距 离 。 

@ 重心 法 : 以 两 类 变量 均值 (重心 ) 之 间 的 距离 作为 类 间距 离 。 

中 位 数 法 : 以 两 类 变量 中 位 数 之 间 的 距离 作为 类 间距 离 。 

其 他 对 聚 类 分 析 具 有 很 强 影响 的 数据 特性 如 下 : 

(1) 数据 的 高 维 性 。 在 高 维 空间 中 ,传统 的 欧 几 里 得 密度 定义 变 得 没有 意义 。 邻 近 度 
也 变 得 更 加 一 致 ,由 于 大 部 分 聚 类 算法 都 基于 邻近 度 或 密度 ,处 理 高 维 数据 时 它们 常常 面临 
困难 ,处 理 该 问题 的 一 种 方法 是 使 用 维度 归 约 。 

(2) 稀 朴 数据 。 稀 朴 数 据 通常 由 非 对 称 的 属性 组 成 ,其 中 零 值 没有 非 零 值 重 要 。 因 此 ， 
一 般 使 用 适合 于 非 对称 属 性 的 相似 性 度量 。 噪 声 和 离 群 点 可 能 严重 地 降低 聚 类 算法 的 性 
能 ,特别 是 K 均值 这 样 的 基于 原型 的 算法 。 在 使 用 聚 类 算法 之 前 , 先 使 用 删除 噪声 和 离 群 

(3) 属性 和 数据 集 可 以 有 不 用 的 类 型 ,如 结构 化 的 、 图 形 的 或 有 序 的 ,而 属性 也 可 以 是 
分 类 的 ( 标 称 的 或 序数 的 )、 定 量 的 (区 间 的 或 比率 的 ) 、 二 元 的 、 离 散 的 或 连续 的 。 不 同 的 邻 
近 性 和 密度 度量 适用 于 不 同类 型 的 数据 。 在 一 些 情况 下 ,数据 可 能 需要 离散 化 或 二 元 化 ,以 
便 可 以 使 用 期 望 的 邻近 性 度量 或 聚 类 算法 。 当 属性 具有 很 多 不 同 的 类 型 (如 连续 的 和 标 称 的 ) 
时 ,邻近 性 和 密度 更 难 定义 ,可 能 需要 特殊 的 数据 结构 和 算法 来 有 效 地 处 理 特定 类 型 的 数据 。 


7.1.3 聚 类 过 程 与 应 用 


1. 聚 类 过 程 

典型 的 聚 类 过 程 主要 包括 数据 准备 、 特 征 选择 ,特征 提取 、 聚 类 ( 含 接近 度 计算 ) 、 隧 类 结 
果 的 有 效 性 评估 等 步骤 。 

(1) 数据 准备 。 数 据 准 备 包括 特征 标准 化 和 降 维 。 

(2) 特征 选择 。 从 最 初 的 特征 中 选择 最 有 效 的 特征 ,并 将 其 存储 于 向 量 中 。 

(3) 特征 提取 。 通 过 对 所 选择 的 特征 进行 转换 形成 新 的 突出 特征 。 

(4) 聚 类 。 首 先 选 择 合适 特征 类 型 的 某 种 距离 函数 或 构造 新 的 距离 函数 进行 接近 上 度 的 
计算 ,而 后 执行 聚 类 或 分 组 。 

(5) 聚 类 结果 评估 。 对 聚 类 结果 进行 评估 主要 有 外 部 有 效 性 评估 、 内 部 有 效 性 评估 和 
相关 性 测试 评估 三 种 。 

聚 类 通过 挖 握 数据 中 的 一 些 深 层 信息 概括 出 每 一 类 的 特点 ,或 把 注意 力 放 在 某 一 个 特 
定 的 类 上 以 做 进一步 分 析 , 聚 类 在 模式 识别 中 的 语音 识别 、 字 符 识别 数据 挖 据 (多 关系 数据 
挖掘 )、 时 空 数据 库 应 用 (GIS 等 ) ,序列 和 异类 数据 分 析 等 方面 都 有 广泛 的 应 用 。 机 器 学 习 
中 的 聚 类 算法 应 用 于 图 像 分 割 和 机 器 视觉 ,图 像 处 理 中 聚 类 用 于 数据 压缩 和 信息 检索 。 素 
类 分 析 对 生物 学 ,心理 学 ,考古 学 ` 地 质 学 .地 理学 以 及 市 场 营销 等 研究 也 都 有 重要 作用 。 例 
如 ,通过 聚 类 分 析 用 户 位 置信 息 进行 商业 选 址 、 精 细 化 客户 服务 中 用 户 画像 .搜索 引擎 查询 
聚 类 以 进行 流量 推荐 .利用 文本 分 类 的 特征 提取 算法 进行 词语 的 领域 聚 类 广泛 应 用 于 医 
学 交通 、 军 事 等 领域 的 图 像 分 割 等 。 需 要 说 明 的 是 ,虽然 聚 类 算法 繁多 ,但 这 些 聚 类 算法 本 
身 无 所 谓 优 劣 ,最 终 运 用 到 数据 的 效果 却 存在 环境 差异 .这 在 很 大 程度 上 取决 于 数据 使 用 者 
对 于 算法 的 选择 是 否 得 当 。 


























2. 聚 类 算法 面临 的 挑战 

大 数据 时 代 , 不 同 来 源 的 数据 呈现 出 TB 级 的 增长 趋势 ,数据 的 类 型 与 结构 更 加 繁杂 ， 
给 聚 类 分 析 研 究 带 来 了 新 的 困难 和 挑战 ,包括 处 理 多 样 化 数据 类 型 的 能 力 、 处 理 超 高 维 数据 
的 能 力 、 处 理 不 均衡 数据 的 能 力 、 聚 类 算法 的 可 拓展 能 力 和 聚 类 效果 评价 的 指标 选择 问题 。 

(1) 处 理 多 样 化 数据 类 型 的 能 力 。 初 期 的 聚 类 算法 只 关注 比较 容易 理解 和 处 理 的 数值 
型 数据 ,如 K-Means 聚 类 算法 与 K-Models 算法 ,大 数据 时 代数 据 类 型 的 复杂 性 使 得 如 何 改 
进 不 同类 型 属性 差异 度 的 可 比 性 ,或 提出 更 有 效 的 混合 属性 差异 度 聚 类 度量 方法 成 为 一 个 
重要 挑战 。 

(2) 处 理 超 高 维 数据 的 能 力 。 在 高 维 空 间 中 , 聚 类 数据 对 象 由 于 属性 数量 过 多 引起 的 
稀 政 性 问题 和 属性 差异 性 度量 的 偏差 问题 会 导致 聚 类 效果 变 差 。 针 对 高 维 数据 的 聚 类 方法 
通常 都 是 先 对 特征 空间 进行 处 理 , 采 用 特征 变换 或 特征 选择 的 方式 来 降低 特征 维度 以 提高 
聚 类 算法 的 性 能 。 特 征 变换 是 根据 合适 的 方法 寻求 与 高 维 数据 等 价 的 低 维 空间 表示 ,通过 
将 原始 特征 空间 进行 变换 ,重新 生成 一 个 维 数 更 小 、 各 维度 之 间 的 独立 性 更 强 的 空间 ,最 常 
用 的 特征 变换 方法 有 小 波 变 换 、.PCA、LPP 和 NPE。 特 征 选择 是 在 不 同 任务 需求 下 选取 符 
合 要 求 且 彼此 之 间 关 联 程度 较 小 的 最 优 特征 子 集 的 过 程 , 其 目的 是 通过 剔除 与 任务 需求 不 
相关 和 弱 相 关 的 特征 以 降低 维度 ,从 而 提高 学 习 算法 的 效率 和 性 能 。 特 征 选择 的 另 一 种 形 
式 是 子 空间 聚 类 ,利用 聚 类 算法 在 不 同 子 空间 中 搜索 簇 群 。 子 空间 聚 类 该 如 何 更 好 地 分 配 
权重 向 量 也 是 一 个 待 解决 的 难题 。 

(3) 处 理 不 均衡 数据 的 能 力 。 在 大 数据 量 中 , 某 类 数据 对 象 的 数量 或 标记 可 能 会 有 很 
大 差异 ,这 样 数据 分 布 出 现 不 平衡 性 成 为 常态 。 大 多 数 对 象 没有 严格 的 类 别 ,它们 在 状态 和 
类 别 方面 存在 着 模糊 性 ,这 种 现象 在 不 均衡 数据 集 上 表现 得 尤为 突出 。 现 有 的 划分 聚 类 算 
法 或 层次 聚 类 算法 等 在 处 理 不 均衡 数据 时 ,其 聚 类 性 能 大 幅度 下 降 。 部 分 图 论 聚 类 算法 能 
有 效 识别 任意 大 小 和 不 同形 状 的 得, 在 处 理 不 均衡 数据 方面 效果 相对 较 好 ,但 它们 的 时 间 复 
杂 度 很 高 ,难以 处 理 大 规模 的 数据 集 。 

(4) 聚 类 算法 的 可 拓展 能 力 。 许 多 聚 类 算法 在 小 样本 数据 集 上 能 够 表现 出 很 好 的 性 
能 ,但 对 包含 几 百 万 甚至 上 亿 个 数据 对 象 的 大 规模 数据 集 进行 聚 类 会 产生 有 偏差 的 结果 。 
划分 聚 类 算法 中 , 聚 类 数目 的 选择 和 聚 类 初始 点 的 选择 是 影响 算法 性 能 的 关键 和 难点 ; 基 
于 图 论 的 聚 类 算法 易于 发 现 不 规则 的 簇 ,但 图 的 最 优 划 分 是 一 个 困难 问题 ; 基于 网 络 和 密 
度 的 聚 类 算法 需要 预先 指定 较 多 参数 。 上 述 问题 都 是 在 面 对 超 大 规模 的 数据 集 时 ,影响 聚 
类 算法 的 可 扩展 性 的 重要 因素 。 

(5) 聚 类 效果 评价 的 指标 选择 问题 。 如 何 衡量 聚 类 数目 以 及 其 他 聚 类 效果 评估 指标 之 
间 的 关系 ,解决 评估 指标 之 间 的 矛盾 问题 一 直 是 聚 类 算法 产生 以 来 的 尚 需 解 决 的 难题 。 聚 
类 算法 的 常见 评估 指标 包括 外 部 评估 指标 和 内 部 评估 指标 。 外 部 评估 方法 是 有 监督 的 ,与 
聚 类 算法 无 关 , 主 要 通过 考察 具有 相同 类 别 的 数据 对 象 被 聚集 到 相同 的 簇 中 \ 不 同类 别 的 数 
据 对 象 聚集 在 不 同 的 簇 中 的 情况 ,主要 的 外 部 评估 指标 有 聚 类 、 聚 类 精度 和 召回 率 等 。 内 
部 评估 方法 是 利用 未 知 结构 数据 集 的 固有 特征 和 量 值 来 进行 评价 ,主要 通过 考察 簇 的 分 离 
情况 和 徐 的 紧凑 情况 评估 夷 类 效果 。 在 进行 大 数据 聚 类 时 ,需要 聚 类 成 多 个 簇 ,需要 达到 什 
么 样 的 效果 才能 有 效 解决 实际 问题 ,这 些 都 需要 结合 聚 类 任务 以 及 其 他 知识 进行 综合 考量 。 
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K-Means 聚 类 算法 是 基于 原型 的 目标 函数 聚 类 方法 的 典型 代表 , 它 以 数据 点 到 原型 的 
某 种 距离 作为 优化 的 目标 函数 ,利用 函数 求 极 值 的 方法 得 到 迁 代 运算 的 调整 规则 。 作 为 一 
种 快速 聚 类 法 ,优点 是 结果 比较 简单 易 懂 ,对 计算 机 的 性 能 要 求 不 高 。 


7.2.1 K-Means 案 类 的 原理 及 步 又 


K-Means(K 均值 ) 聚 类 的 基本 思想 是 将 每 一 个 样品 分 配给 最 近 中 心 ( 均 值 ) 的 类 中 , 它 
的 具体 原理 是 : 

算法 首先 随机 从 数据 集中 选取 个 点 作为 初始 聚 类 中 心 ,然后 计算 各 个 样本 到 聚 类 中 
心 的 距离 ,通过 欧式 距离 把 样本 归 到 离 它 最 近 的 那个 聚 类 中 心 所 在 的 类 。 计 算 新 形成 的 每 
一 个 聚 类 的 数据 对 象 的 平均 值 来 得 到 新 的 聚 类 中 心 ,调整 到 相 邻 两 次 的 聚 类 中 心 没有 任何 
变化 为 止 。 

这 种 算法 的 特点 是 在 每 次 迭代 中 都 要 考察 每 个 样本 的 分 类 是 否 正确 。 若 不 正确 ,就 要 
调整 ,在 全 部 样本 调整 完 后 ,再 修改 聚 类 中 心 ,进入 下 一 次 迭代 。 如 果 在 一 次 迭代 算法 中 ,所 
有 的 样本 被 正确 分 类 , 则 不 会 有 调整 , 聚 类 中 心 也 不 会 有 任何 变化 ,算法 结束 。 

可 将 K-Means 聚 类 步骤 总 结 如 下 : 

(1) 将 所 有 的 样品 分 成 上 个 初始 类 。 

(2) 通过 欧 氏 距离 将 某 个 样品 划 入 离 中 心 最 近 的 类 ,并 对 获得 样品 与 失去 样品 的 类 重 
新 计算 中 心 坐标 。 

(3) 重复 步骤 (2) ,直到 所 有 的 样品 都 不 能 再 分 配 为 止 。 

在 R 中 使 用 kmeans() 函 数 进行 K-Means 聚 类 分 析 。 在 做 K-Means 聚 类 分 析 之 前 , 需 
要 观察 数据 的 量 纲 差异 及 是 否 存在 异常 值 。 若 数据 量 纲 差别 太 大 , 则 需要 用 scale() 函 数 做 
中 心 标准 化 ,消除 量 纲 影响 。 若 存在 异常 值 , 则 需要 做 预 处 理 ,否则 会 严重 影响 划分 结果 。 

KK 均值 聚 类 的 算法 总 结 如 下 : 

聚 类 簇 数 k 

1: 从 D 中 随机 选择 k 个 样本 作为 初始 均值 向 量 {p3,p2,… ,p} 


: repeat 
: 令 C= $ (Si<k) 





3: 
4: for j= 1,2,°%… ,mdo 

5: 计算 样本 与 个 均值 向 量 ps (1<i<k) 的 距离 :d= 上- ps 有:; 
6: 根据 距离 最 近 的 均值 向 量 确定 x; 的 簇 标记 : 和 A= argminse 0,2.…m dss 
7: 将 样本 为 划 人 相应 的 簇 : G3= ca U {x3} 

8: end for 

9: for i= 1,2,°**,k do 

10: 计算 新 均值 向 量 : p= (1/| C1)3xec, 

11: if pi#ps then 

12: 将 当前 均值 向 量 六 更 新 为 由 

13: else 


14: 保持 当前 均值 向 量 不 变 


15: end if 

16: end for 

17: until 当前 均值 向 量 均 未 更 新 
输出 : 簇 划 分 c= {Ci,C:,*… ,ce} 


7.2.2 ”K-Means 特点 与 适用 场景 


1. K-Means 算法 的 特点 

K-Means 作为 一 种 无 监督 学 习 方 法 ,是 最 早出 现 的 聚 类 分 析 算 法 之 一 , 它 的 特点 如 下 : 

(1) 采用 两 阶段 反复 循环 过 程 算法 ,以 欧式 距离 作为 相似 度 测量 。 

(2) 结束 的 条 件 是 不 再 有 数据 元 素 被 重新 分 配 ,结果 对 划分 个 数 与 初始 点 的 选取 
敏感 。 

(3) 一 般 会 比分 层 聚 类 产生 出 更 紧 实 的 划分 ,在 字段 较 多 时 ,一 般 会 比分 层 聚 类 要 快 。 

(4) 算法 采用 误差 平方 和 准则 函数 作为 聚 类 准则 函数 。 

(5) 算法 倾向 于 生成 相同 大 小 的 划分 ,时 间 复 杂 度 近似 于 线性 ,对 大 数据 集 有 较 高 的 效 
率 ,并 且 是 可 伸缩 性 的 。 

(6) 算法 简单 ,容易 实现 ,结果 直观 、 易 于 展现 。 

(7) 在 聚 类 之 前 需要 先 确定 类 得 的 数量 ,上 且 质心 的 选取 会 影响 最 终 的 聚 类 结果 ,稳定 性 
也 比较 差 , 因 此 较 适合 处 理 分 布 集中 的 大 样本 数据 集 。 

2. K-Means 的 适用 场景 

(1) 适合 需要 对 数据 进行 划分 的 场景 ,如 客户 分 群 .图 像 处 理 、 精 准 营销 等 。 应 用 K- 
Means 聚 类 方法 对 聚 类 用 户 进行 特征 分 析 , 实 现 客户 细 分 ,按照 不 同 的 聚 类 群体 客户 特征 
进行 个 性 化 营销 服务 ,最 终 在 避免 资源 浪费 的 同时 ,提高 营销 的 有 效 性 。 图 像 分 割 就 是 把 图 
像 分 成 若干 个 特定 的 .具有 独特 性 质 的 区 域 并 提出 感 兴趣 目标 的 过 程 。 图 像 分 割 后 提取 的 
目标 可 以 用 于 人 脸 识 别 、 指 纹 识别 、 交 通 控制 系统 、 卫 星 图 像 定位 等 。 在 医学 上 还 能 够 进行 
组 织 体积 的 测量 、 肿 瘤 和 其 他 病理 的 定位 等 。 在 电子 商务 中 分 析 商 品 相似 度 , 进 行商 品 归 
类 ,从 而 有 针对 性 地 使 用 不 同 销售 策略 ,进行 精准 营销 。 

(2) 适合 字段 是 连续 数值 的 情况 ,离散 数值 类 型 的 字段 经 过 适当 变换 也 可 以 用 于 K- 
Means。 如 音调 分 类 ,在 平常 生活 中 ,音频 信号 和 音乐 分 析 较 少 被 讨论 ,但 它 却 是 一 个 有 趣 
的 机 器 学 习 概 念 应 用 。K-Means 可 通过 样 例 音频 片段 的 强度 图 谱 来 给 音调 片段 分 类 。 给 
定 一 个 有 nn 个 人 不 同 频 率 的 强度 图 谱 集 合 ,K-Means 将 会 给 样 例 图 谱 分 类 ,从 而 使 得 在 ? 
维 空间 中 每 个 图 谱 到 它们 组 中 心 的 欧 氏 距离 最 小 。 例 如 ,现在 的 K 歌 软件 通过 识别 输入 的 
声音 进行 分 类 ,再 与 原音 频 进 行 对 比 , 可 以 更 加 准确 地 测 出 试验 者 是 否 有 跑 调 。 

(3) 可 以 作为 其 他 一 些 数据 挖掘 算法 的 预 处 理 步骤 ,如 为 分 类 算法 数据 生成 类 标号 。 
7.2.3 K-Means 聚 类 的 算法 实例 

【 例 7-1】 用 K-Means 聚 类 探寻 青少年 市 场 细 分 。 

营销 者 希望 通过 分 析 数 百 万 的 青少年 对 社交 网 站 的 浏览 数据 ,进行 青少年 的 客户 分 群 ， 
确定 有 着 相同 兴趣 (如 体育 、 宗 教 或 者 音乐 ) 的 团体 .从 而 避免 将 广告 投 给 那些 对 正在 销售 的 
产品 不 感 兴趣 的 青少年 ,达到 精准 营销 。 例 如 ,一 种 运动 饮料 对 于 那些 对 运动 毫 无 兴趣 的 青 


少年 很 有 可 能 是 销售 艰难 。 

第 一 步 : 收集 数据 。 

在 本 次 分 析 中 ,将 使 用 一 个 代表 30000 名 美国 高 中 生 的 随机 案例 数据 集 ( 数 据 集 见 附 
录 ) ,这 些 数据 均匀 采样 于 4 个 高 中 毕业 年 份 (2006 一 2009) 。 该 数据 包含 30000 名 青少年 ， 
其 中 4 个 变量 表示 个 人 特征 ,36 个 单词 表示 兴趣 。 文 本 挖掘 工具 将 剩余 的 社交 网 络 服务 页 
面 内 容 划 分 成 单词 。 从 出 现在 所 有 页 面 的 前 500 个 单词 中 ,选择 36 个 单词 代表 5 大 兴趣 
类 , 即 课 外 活动 时尚. 宗教、 浪漫 和 反 社 会 行为 。 这 36 个 单词 包括 足球 性感. 亲吻 .圣经 、 
购物 .死亡 和 药物 等 单词 。 对 每 个 人 来 说 ,最 终 的 数据 表示 每 个 单词 出 现在 个 人 社交 网 络 服 
务 中 的 次 数 。 以 下 所 有 实现 使 用 R 语言 。 

第 二 步 ; 探索 和 准备 数据 。 

可 以 用 read. csv() 的 默认 设置 将 数据 加 载 到 数据 框 中 。 





>teens< read.csv ("snsdata.csv") 


StrO 〇 函数 输出 的 前 几 行 数据 如 下 : 


> str (teens) 

'data.frame': 30000 obs. of 40 variables: 

$ gradyear : int 2006 2006 2006 2006 2006 2006 2006 2006 2006 2006 ... 
$ gender : Factor W/ 2 levels "F","M": 2121NA11211... 

$ age :num 1918.8 18.3 18.9 19 ... 

$ friends :int 70 6901014272175239... 


观察 性 别 (gender) 变 量 , 可 注意 到 NA 相对 于 值 1 和 2, 它 代表 得 到 的 是 完全 不 同 的 内 
容 。 显 示 该 记录 有 一 个 缺失 , 即 不 知道 这 个 人 的 性 别 (gender)。 使 用 table() 命 令 查 看 ,如 
下 所 示 。 

>table (teens$ gender) 


4 M 
22054 5222 


尽管 这 些 数据 显示 存在 的 F 和 M 值 有 多 少 个 ,但 是 table() 函数 排除 了 值 NA ,添加 了 
一 个 额外 的 参数 显示 。 
>table (teens$ gender, useNA= "ifany") 


蚁 M <NA> 
22054 5222 2724 


显示 有 2724 条 记录 (9%%) 缺 失 了 性 别 (gender) 数 据 。 但 在 社交 网 络 服务 数据 中 ,女性 
是 男性 的 4 倍 多 , 即 男性 并 不 像 女性 那样 倾向 于 使 用 社交 网 络 服务 网 站 。 
> summary (teens$ ages) 


Min. lst Qu. Median Mean3rdQu. Max. NA's 
3.086 16.310 17.290 17.990 18.260106.900 5086 


对 于 年 龄 (age) 变 量 ,共有 5086 条 记录 (17%) 有 缺失 值 。 事 实 是 最 小 值 和 最 大 值 是 不 
可 信 的 ,一 个 3 岁 或 者 一 个 106 岁 的 人 就 读 于 高 中 是 不 可 能 的 ,清除 这 些 数据 。 


对 于 高 中 生 ,一 个 合理 的 年 龄 范围 应 该 包括 那些 至 少 13 岁 ,还 没有 超过 20 岁 的 学 生 ， 
任何 落 在 这 个 范围 之 外 的 年 龄 值 将 会 与 缺失 数据 一 样 处 理 。 为 了 对 年 龄 (age) 变 量 重 新 编 
码 , 可 以 使 用 ifelse() 函 数 ,如 果 年 龄 (age) 大 于 等 于 13 岁 且 小 于 20 岁 ,就 将 teen$age 值 赋 
给 teen $age; 否则 ,赋值 为 NA。 





>teens5 age< - ifelse (teen$ age>= 13gteens$ age< 20, teens$ age NA) 


通过 复查 summary() 的 输出 ,可 以 看 到 年 龄 (age) 的 范围 服从 一 个 看 上 去 更 像 一 个 真 
实 高 中 学 生 的 分 布 。 
> summary (teens$ age) 


Min. lst Qu. Median Mean 3rd Qu. Max. NA's 
13.03 16.30 17.26 17.25 18.22 20.00 5523 


这 导致 了 一 个 更 大 的 缺失 数据 问题 。 需 要 找到 一 种 方法 来 处 理 这 些 缺 失 值 。 

1) 数据 准备 一 一 缺失 值 的 虚拟 编码 

排除 具有 缺失 值 的 记录 是 一 种 简单 的 处 理 缺 失 值 的 方法 。 例 如 ,在 数据 中 性 别 变量 的 
值 为 NA 的 学 生 与 那些 缺失 年 龄 (age) 数 据 的 学 生 是 完全 不 同 的 。 这 意味 着 通过 排除 那些 
要 么 缺失 性 别 (gender) 值 的 ,要 么 缺失 年 龄 (age) 值 的 记录 ,将 排除 26% 的 数据 , 即 9% 与 
17% 的 和 (9% 十 17% 二 26%) ,超过 7500 条 记录 ,而 这 是 在 只 有 两 个 变量 有 缺失 数据 的 情况 
下 。 数 据 集中 存在 的 缺失 值 的 数量 越 多 ,任意 给 定 的 记录 被 排除 的 可 能 性 就 越 大 。 对 于 分 
类 数据 中 像 性 别 (gender) 这 样 的 变量 ,将 缺失 值 作为 一 个 单独 的 类 别 也 可 以 解决 。 例 如 , 除 
了 女性 (female) 和 男性 (male) 两 个 取 值 外 ,可 以 增加 一 个 额外 的 水 平 值 unknown( 未 知 )。 

除了 有 一 个 水 平 值 被 拿 出 来 作为 参照 组 以 外 ,虚拟 编码 涉及 为 名 义 特征 中 的 每 个 水 平 
值 单独 创建 一 个 取 值 为 1 或 者 0 的 二 元 虚拟 变量 。 有 一 个 类 水 平 值 被 排除 在 外 ,因为 它 可 
以 通过 其 他 类 水 平 值 来 进行 推断 。 例 如 ,如 果 有 人 的 性 别 既 不 是 女性 (female) 也 不 是 未 知 
(unknown) 的 , 则 他 的 性 别 一 定 是 男性 (male)。 因 此 ,只 需要 为 女性 (female) 和 未 知 
(unknown) 的 性 别 创建 虚拟 变量 。 


> teens$ female< 

ifelse (teen$ gender=="F"&! is.na (teens$ gender),1,0) 
> teens$ no_gender< 

ifelse (is.na (teens$ gender),1,0) 


第 一 个 语句 表示 ,如 果 性 别 等 于 F, 且 不 等 于 NA, 则 teens$ female 赋值 为 1, 否则 赋值 
为 0; 第 二 个 语句 表示 ,is. na0) 函 数 用 来 检测 性 别 (gender) 是 否 等 于 NA, 如 果 is. na() 返 回 
TRUE, 则 teens $ no_gender 赋值 为 1 ,否则 赋值 为 0。 构 建 的 虚拟 变量 与 原始 的 gender 变 
量 进行 比较 。 


>table (teens$ gender, useNA= "ifany") 
坚 M <NR> 
22054 5222 2724 
>table (teens$ female, useNA= "ifany") 
0 
7946 22054 
>table (teens$ no_gender, useNA= "ifany") 


0 是 
27276 2724 


因为 在 teens $ female 和 teens $ no_gender 中 的 值 为 1 的 数量 与 初始 编码 中 的 下 和 
NA 值 的 数量 是 一 致 的 ,证 明 结果 是 可 信 的 。 

2) 数据 准备 一 一 插 补 缺失 值 

接 下 来 ,使 用 一 种 称 为 插 补 法 (imputation ) 的 不 同 策略 来 消除 关于 年 龄 (age) 变 量 的 
5523 个 缺失 值 , 插 补 法 依据 可 能 的 真实 值 的 猜测 来 填补 缺失 值 ,应 用 mean() 函数 。 

>mean (teens$ age) 

[Dm 

问题 在 于 ,对 包含 缺失 数据 的 向 量 , 其 均值 是 无 法 定义 的 。 因 为 年 龄 (age) 包 含 缺失 值 ， 
所 以 mean(teens$age) 返 回 一 个 缺失 值 。 在 计算 之 前 添加 一 个 额外 的 参数 来 去 除 缺 失 值 。 





>mean (teens$ age, na.rm= TRUE) 
[1] 17.25243 


结果 表明 ,学 生 的 平均 年 龄 大 约 为 17 岁 。 在 除去 NA 值 后 ,计算 毕业 年 份 (gradyear) 
的 不 同 水 平 值 的 年 龄 均值 。 

>aggregate (data= teens,age~ gradyear, mean, na .rm= TRUE) 

gradyear age 

1 2006 18.65586 
2007 17.70617 


2008 16.76770 
2009 15.81957 


毕业 年 份 每 变化 一 年 ,平均 年 龄 就 会 不 同 。 使 用 Aggregate() 输 出 到 一 个 数据 框 中 来 
证 明 数 据 的 合理 性 ,需要 把 它 合 并 到 原始 数据 中 。 可 以 使 用 ave() 函数。 


必 w 


>ave_age< ave (teens$ age, teens$ gradyear, FUN= function (x) mean (x,na.rm= TRUE) ) 


为 了 将 这 些 均值 插 补 到 缺失 值 中 ,需要 再 一 次 使 用 ifelse() 函 数 , 仅 当 原 始 的 年 龄 (age) 
值 为 NA 时 ,调用 ave_age 的 值 。 





> teens$ age< - ifelse (is.na (teens$ age) ,ave age, teens$ age) 

> summary (teens$ age) 

Min. lst Qu. Median Mean 3rd Qu. Max. 

13.03 16.28 17.24 17.24 18.21 20.00 

第 三 步 : 基于 数据 训练 模型 。 

为 了 达到 细 分 目的 ,使 用 stats 添加 包 中 的 一 个 K 均值 实现 , 它 提供 了 一 个 平凡 的 算法 
实现 。 聚 类 分 析 前 ,考虑 36 个 特征 .创建 一 个 只 包含 这 些 特征 的 数据 框 。 

>interests< teens[ 5:40] 

在 使 用 距离 计算 分 析 之 前 ,通常 采用 的 做 法 是 将 特征 标准 化 ,以 便 使 得 每 个 特征 具有 相 
同 的 尺度 。 为 了 将 Z-score 标准 化 应 用 于 数据 框 interests, 可 使 用 带 有 lapply() 的 scale() 
函数 。 

















>Interests z<as.data.frame (lapply (interests,scale)) 


为 了 将 teens 划分 成 5 个 类 ,可 以 使 用 下 面 的 命令 。 


>teen clusters< kmeans (interests z,5) 

这 就 将 k 均 值 聚 类 的 结果 保存 到 了 一 个 名 为 teen_clusters 的 对 象 中 。 

第 四 步 : 评估 模型 的 性 能 。 

评估 一 个 类 是 否 有 用 的 最 基本 方法 之 一 就 是 检查 落 在 每 一 组 中 的 案例 数 。 为 了 获得 
kmeans() 聚 类 的 大 小 ,可 以 使 用 teen_clusters $ size 分 量 。 


>teen clusters$ size 
[1] 66721419 849 6041 1024 


为 了 更 深入 地 了 解 类 ,可 以 使 用 teen_clusters $ centers 分 量 来 查看 。 
>teen clusters$ centers 


根据 这 一 信息 ,可 以 确定 每 一 位 用 户 被 分 配 到 了 哪 一 类 中 。 例 如 ,下 面 是 社交 网 络 服务 
数据 中 前 5 个 用 户 的 个 人 信息 。 


Ea teens[ 1:5,c("cluster", "gender", "age", "friends")] 
cluster gender age friends 


1 M 18.982 3 
2 2 F 18.801 0 
3 1 M18.335 69 
| 4 二 F 18.875 0 
和 5 <NA>18.995 10 


根据 聚 类 ,类 之 间 每 一 类 的 年 龄 均值 变化 不 大 ,可 认为 不 同年 龄 不 一 定 在 兴趣 上 有 系统 
性 的 差异 ,其 描述 如 下 所 示 。 


>aggregate (data= teens,age~ cluster,mean) 
cluster age 

1 17.29825 

2 17.07689 

3 17.39037 

4 16.86497 

517.11957 


这 些 类 对 于 性 别 (gender) 仍 然 具 有 非常 强 的 预测 能 力 。 


>aggregate (data= teens, female~ cluster,mean) 
cluster female 


ww PP 


工 1 0.6995541 
. 2 0.8377744 
条 3 0.7250000 
4 4 0.8381171 
E] 5 0.8027079 


下 面 通过 数据 的 支持 查看 一 下 这 些 类 对 于 用 户 拥有 的 朋友 数量 的 预测 能 力 。 


>aggregate (data= teens, friends~ cluster,mean) 


cluster friends 
1 27.69537 
2 37.20261 
3 32.57333 
4 41.43054 
5 30.50290 


组 内 成 员 的 身份 .性 别 和 朋友 的 数量 之 间 的 关系 表明 ,这 些 类 是 非常 有 用 的 预测 因子 。 
以 这 种 方式 来 验证 这 些 类 的 预测 能 力 ,使 得 将 这 些 类 在 推销 给 营销 团队 时 变 得 更 加 容易 ,并 
最 终 提高 算法 的 性 能 。 


ww mm HP 


7.3 层次 聚 类 


层次 聚 类 (Hierarchical Clustering) 是 聚 类 算法 中 一 种 很 直观 的 算法 ,顾名思义 ,是 要 一 
层 一 层 地 进行 聚 类 ,可 以 从 下 而 上 地 把 小 的 簇 合 并 聚集 ,也 可 以 从 上 而 下 地 将 大 的 艇 进行 分 
割 。 层 次 聚 类 常常 使 用 树 状 图 表示 。 


7.3.1 层次 聚 类 的 原理 及 步 县 


层次 聚 类 通过 计算 不 同类 别 数 据点 间 的 相似 度 来 创建 一 棵 有 层次 的 嵌 套 聚 类 树 。 在 聚 
类 树 中 ,不 同类 别 的 原始 数据 点 是 树 的 最 底层 , 树 的 顶层 是 一 个 聚 类 的 根 节 点 ,创建 聚 类 树 
有 自 下 而 上 合并 和 自 上 而 下 分 裂 两 种 方法 。 

1. 层次 聚 类 原理 

层次 聚 类 的 合并 算法 通过 计算 两 类 数据 点 间 的 相似 性 ,对 所 有 数据 点 中 最 为 相似 的 两 
个 数据 点 进行 组 合 , 并 反复 迭代 这 一 过 程 。 简 单 来 说 ,层次 聚 类 的 合并 算法 是 通过 计算 每 一 
个 类 别 的 数据 点 与 所 有 数据 点 之 间 的 距离 来 确定 它们 之 间 的 相似 性 ,距离 越 小 ,相似 度 越 
高 。 并 将 距离 最 近 的 两 个 数据 点 或 类 别 进行 组 合 ,生成 聚 类 树 。 层 次 聚 类 使 用 距离 来 计算 
不 同类 别 数据 点 间 的 距离 (相似 度 ) 。 

2. 层次 聚 类 步骤 

(1) 将 每 个 对 象 归 为 一 类 , 共 得 到 N 类 ,每 类 仅 包 含 一 个 对 象 。 类 与 类 之 间 的 距离 就 
是 它们 所 包含 的 对 象 之 间 的 距离 。 

(2) 找到 最 接近 的 两 个 类 并 合并 成 一 类 ,于 是 总 的 类 数 减少 一 个 。 

(3) 重新 计算 新 类 与 所 有 旧 类 之 间 的 距离 。 

(4) 重复 第 (2) 步 和 第 (3) 步 ,直到 最 后 合并 成 一 个 类 为 止 (此 类 包含 了 N 个 对 象 ) 。 

(5) 根据 第 (3) 步 的 不 同 , 可 将 层次 式 聚 类 方法 分 为 单 链 接 、 全 链接 和 均 链接 等 聚 类 
大 法 


7.3.2 层次 聚 类 算法 及 特点 


层次 聚 类 是 在 不 同 层 次 上 对 数据 进行 划分 ,从 而 形成 树 状 的 聚 类 结构 。 对 给 定 的 数据 
集 进行 层次 的 分 解 , 直 到 满足 某 种 条 件 或 者 达到 最 大 和 迭代 次 数 ,具体 又 可 分 为 凝聚 的 和 分 类 
的 层次 聚 法 ,如 图 7-2 所 示 。 


凝聚 的 
(AGNES) 





分 裂 的 
(DIANA) 








图 7-2 ”层次 聚 类 算法 


凝聚 的 层次 聚 类 (AGNES 算法 ) 是 一 种 自 底 向 上 的 策略 ,首先 将 每 个 对 象 作为 一 个 徐 ， 
后 合并 这 些 原子 艇 为 越 来 越 大 的 簇 (一 般 是 计算 所 有 簇 的 中 心 之 间 的 距离 ,选取 距离 最 小 
的 两 个 簇 合并 ) ,直到 某 个 终结 条 件 被 满足 或 者 达到 最 大 迭代 次 数 。 

分 裂 的 层次 聚 类 (DIANA 算法 ) 是 采用 自 顶 向 下 的 策略 , 它 首 先 将 所 有 对 象 置 于 一 
徐 中 ,然后 逐渐 细 分 为 越 来 越 小 的 簇 (每 次 迭代 分 裂 一 般 是 将 一 个 簇 为 两 个 ), 直 到 达到 了 某 
个 终结 条 件 或 者 达到 最 大 迭代 次 数 。 

AGNES 算法 又 称 系统 聚 类 和 系谱 聚 类 ,开始 时 将 数据 集中 的 每 个 样本 初始 化 为 一 个 
初始 聚 类 簇 ,然后 在 算法 运行 的 每 一 步 中 找 出 距离 最 近 的 两 个 聚 类 簇 进行 合并 ,该 过 程 不 断 
重复 ,直到 达到 预 设 的 聚 类 簇 个 数 。 这 里 的 关键 是 如 何 计算 聚 类 簇 之 间 的 距离 。 例 如 ,给 定 
聚 类 簇 C; 和 Ci ,可 以 通过 下 面 的 公式 来 计算 距离 。 


最 小 距离 : duin(CioC)= min dist(x,z) 
ECi'zECi 
最 大 距离 : daa (CisG;)= max, sdist (zx,z) 
均 距 二 一 一 E 
平均 距离 : dua (C0) = TE Ie 2 Pai, 2) 


显然 ,最 小 距离 由 两 个 秘 的 最 近 样 本 决定 ， 最 大 距离 由 两 个 能 的 最 远 样本 决定 ， 而 平均 
距离 则 由 两 个 徐 的 所 有 样本 共同 决定 。 因 此 ,AGNES 算法 上 面 三 个 不 同 的 公式 ,相应 地 被 
称 为 均 链 接 、 单 链接 和 全 链接 。AGNES 算法 可 描述 如 下 : 

(1) 将 数据 集中 的 每 个 样本 初始 化 为 一 个 簇 , 并 放 入 集合 C 中 。 计 算 任意 两 个 集合 之 
间 的 距离 ,并 存 到 M 中 。 

(2) 设置 当前 聚 类 数目 g = mm。 

(3) 当 g 大 于 k 时 ,执行 如 下 步骤 。 

@ 找到 距离 最 近 的 两 个 集合 C; 和 Ci ,将 C; 和 Ci 合并 ,并 赋值 给 C;。 

@ 在 集合 C 中 将 C; 删除 ,更 新 Cj+1 到 C, 的 下 标 。 

@ 删除 M 的 第 j 行 和 第 j 列 ,更 新 M 的 第 i 行 和 第 i 列 。 

@Ogq= aq-1。 

(4) 返回 聚 类 集合 C。 

层次 聚 类 法 的 优点 是 可 以 通过 设置 不 同 的 相关 参数 值 , 得 到 不 同 粒度 上 的 多 层次 聚 类 结 
构 ,在 聚 类 形状 方面 ,层次 聚 类 适用 于 任意 形状 的 聚 类 ,并且 对 样本 的 输入 顺序 是 不 敏感 的 。 


层次 聚 类 的 缺点 是 算法 的 时 间 复 杂 度 大 , 聚 类 的 结果 依赖 聚 类 的 合并 点 和 分 裂 点 的 选 
择 。 由 于 层次 聚 类 过 程 最 明显 的 特点 就 是 不 可 逆 性 ,对 象 在 合并 或 分 裂 之 后 ,下 一 次 聚 类 会 
在 前 一 次 聚 类 基础 上 继续 进行 合并 或 分 裂 。 这 样 ,一旦 聚 类 结果 形成 , 想 要 再 重新 合并 来 优 
化 聚 类 的 性 能 是 不 可 能 的 。 此 外 ,层次 聚 类 要 求 指定 一 个 合并 或 分 解 的 终止 条 件 , 例 如 指定 
聚 类 的 个 数 或 是 两 个 距离 最 近 的 聚 类 之 间 最 小 距离 阔 值 。 因 此 , 聚 类 终止 条 件 的 不 精确 性 
也 是 一 个 问题 。 


7.3.3 层次 聚 类 的 算法 实例 


【 例 7-2〗 为 了 用 平面 图 清晰 地 展示 层次 聚 类 的 聚 类 效果 ,选用 一 个 5 维 数据 集 一 一 
customer( 数 据 来 源 于 : https://github. com/ywchiu/ml_R_cookbook/tree_master/CH9) 
用 RR 语言 来 进行 算法 演示 ,该 数据 集 含有 某 商场 的 60 位 顾客 的 编号 (ID)、 光 顾 该 商场 次 数 
(Visit, Time) ,平均 消费 (Average. Expense) ,性 别 (Sex) (性 别 用 1 和 0 表示 ,1 表示 男性 、0 
表示 女性 ) 和 年 龄 (Age) 等 属性 。 通 过 对 该 数据 集 进行 分 析 ,发 现 不 同 消费 者 之 间 有 什么 共 
性 ,从 而 可 以 对 不 同 用 户 分 类 进行 用 户 画 像 描 述 。 之 后 可 以 针对 不 同 用 户 采 取 不 同 的 营销 
策略 ,以 获得 更 高 的 利润 。 

(1) 导入 数据 ,并 查看 数据 ,结果 如 图 7-3 所 示 。 


> customer <- read.csv ("path...") 


> head (customer) 
ID Visit.Time Average.Expense Sex Age 
有 入 3 5.7 0 10 
2 党 5 14.5 0 27 
及 洁 16 33.5 0 32 
4 4 5 15.9 0 30 
5 5 16 24.9 0 23 
6 3 12.0 0 15 
> Str (customer) 
"data.frame': 60 obs. of 5 variables: 
$ID :sin L12345678910 ..: 
$ Visit.Time :int 35165163121463... 
$ Average.Expense: num 5.7 14.5 33.5 15.9 24.9 12 28.5 18.8 23.8 5.3 ... 
$ Sex :int 0000000000... 
$ Age : int 10 27 32 30 23 15 33 27 16 11 ... 


图 7-3 str() 结 果 图 
由 图 7-3 不 难看 出 ,该 数据 集 有 60 个 样本 、5 个 变量 ,以 及 各 变量 的 名 称 及 类 型 。 
(2) 为 了 使 数据 处 于 相同 的 水 平 , 对 数据 作 归 一 化 处 理 , 结 果 如 图 7-4 所 示 。 


> customer scale <- scale(customer[,- 1]) 
> head(customer scale) 


Visit.Time Average.Expense Sex Age 
[1,] -1.2021905 -1.3523765 -1.456685 -1.2313440 
[2,] -0.7569348 -0.3046072 -1.456685 0.5995173 
[3,] 1.6919719 1.9576221 -1.456685 1.1380059 
[4,] -0.7569348 -0.1379166 -1.456685 0.9226105 
[5,] 1.6919719 0.9336657 -1.456685 0.1687264 
[6,] -1.2021905 -0.6022689 -1.456685 -0.6928553 


图 7-4” 归 一 化 处 理 后 的 数据 


可 以 看 出 , 归 一 化 后 的 数据 变 成 了 小 数 ,而 且 它 是 符合 标准 正 态 分 布 的 。 
(3) 使 用 层次 聚 类 方法 对 数据 集 进行 层次 聚 类 ,返回 的 聚 类 信息 如 图 7-5 所 示 。 


> hc<- hclust (dist (customer scale,method = "euclidean"),method = "ward.D2") 
> hc 
Call: 
hclust(d = dist(customer_scale, method = “euclidean"), method = "ward.D2") 
Cluster method : ward.D2 
Distance : euclidean 


Number of objects: 60 
图 7-5 层次 聚 类 基本 信息 


由 图 7-5 可 知 本 次 聚 类 操作 的 数据 集 名 称 、 聚 类 方法 等 信息 。 
(4) 调用 基础 包 中 的 plot() 函数 绘制 聚 类 树 图 ,结果 如 图 7-6 所 示 。 


> plot(hc,hang = -0.01,cex=0.7) 


Cluster Dendrogram 
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图 7-6 ”customer 数据 集 层 次 聚 类 图 


图 7-6 中 ,最 上 边 Cluster Dendrogram 为 图 的 标题 : 聚 类 树 状 图 。 纵 向 标签 Height 表 
示 高 度 , 在 这 里 对 应 距离 分 别 为 0 一 5.5 一 10、10 一 15 所 能 划分 成 的 类 。 数 字 越 高 ,表示 能 分 
到 一 起 的 可 能 性 越 低 。 这 也 很 好 地 符合 我 们 的 常识 。 同 样 的 数据 ,分 的 类 越 少 , 分 的 精度 就 
越 小 ,因此 分 到 一 起 的 可 能 性 越 低 .对 应 的 数字 越 高 。 最 底部 dist (customer, method 一 
"euclidean") 标 明了 该 图 的 层次 聚 类 所 用 的 数据 ,这 里 是 用 了 customer 数据 集 , 并 用 
euclidean( 欧 几 里 得 方法 ) 求 的 距离 来 当 作 聚 类 数据 ,hclust( x* ,"ward. D2") 中 的 x 表示 上 
面 计算 出 的 距离 数据 ,而 "ward. D2" 表 示 的 是 类 与 类 之 间 的 距离 计算 方法 : 离 差 平方 和 法 。 

从 图 7-6 中 可 以 看 到 ,在 图 的 最 下 端 每 个 顾客 各 占 一 个 分 支 自 成 一 类 , 越 往 上 看 ,一 条 
分 支 下 的 顾客 数 越 多 ,类 别 数 也 慢 慢 减 少 ,直至 最 上 端 所 有 顾客 聚 为 一 类 。 例 如 , 按 四 大 类 
来 看 ,编号 为 3、7、13、8、12、19、5、17 的 顾客 被 分 为 一 类 。 其 他 各 类 编号 也 可 从 图 中 看 出 。 


(5) 分 到 同一 类 中 的 顾客 会 有 相似 之 处 ,下 面 看 看 他 们 有 什么 比较 具体 的 相似 之 处 。 
聚 为 同一 类 的 顾客 信息 如 图 7-7 所 示 , 原始 数据 大 体 信 息 如 图 7-8 所 示 。 


> customer[c(3,7,13,8,12,19,5,17)，] 


> summary (customer) 


ID Visit.Time Average-Expense Sex Age 
3 16 33.5 3 


3 3 0 32 
LL 12 28.5 0 33 
13 13 12 28.5 0 33 
8 8 14 18.8 0 27 
2 2 14 21.0 0 25 
19 19 17 25.9 0 18 
5 5 16 24.9 0 23 
17 17 14 23.6 0 22 
图 7-7。 聚 为 同一 类 的 顾客 信息 
ID Visit.Time “Average.Expense Sex Age 
Min. : 1.00 Min. Min. :4.50 Min. :0.0000 Min. : 8.00 


lst Qu.:15.75 lst Qu.: lst Qu. :10.82 lst Qu.:0.0000 lst Qu.:15.00 


1 

$=0 
Median :30.50 Median : 7.5 Median :16.00 Median :1.0000 Median :20.50 
Mean :30.50 Mean 8.4 Mean :17.06 Mean :0.6833 Mean :21.43 
3rd Qu.:45.25 3rd Qu.:12.0 3rd Qu.:24.90 3rd Qu.:1.0000 3rd Qu.:27.00 
Max. :60.00 Max. :18.0 Max. :33.70 Max. :1.0000 Max. :47.00 


图 7-8 原始 数据 大 体 信息 


通过 该 类 顾客 的 信息 与 原始 数据 中 的 信息 作对 比 ,很 容易 发 现 这 一 类 顾客 的 光顾 次 数 
和 平均 消费 (相对 于 Visit. Time 的 最 大 值 18 和 Average. Expense 的 最 大 值 33. 70 来 说 ) 都 
处 于 比较 高 的 水 平 ,而 且 均 为 女性 客户 ,年龄 段 基 本 处 于 中 间 年 龄 段 。 对 于 这 一 类 顾客 ,可 
以 具体 描述 为 常 光顾 该 商场 且 消 费 水 平 较 高 的 中 年 女性 顾客 。 对 于 其 他 类 别 , 也 可 以 用 
类 似 方法 来 发 现 同一 类 下 的 顾客 之 间 的 共性 ,这 里 就 不 一 一 列举 ,车 有 兴趣 ,可 以 自行 去 
发 现 。 





7.4 神经 网 络 聚 类 


人 工 神经 网 络 (Artificial Neural Network, ANN) 也 称 为 神经 网 络 或 类 神经 网 络 。 它 从 
信息 处 理 角度 对 人 脑 神经 元 网 络 进行 抽象 ,建立 某 种 简单 模型 , 按 不 同 的 连接 方式 组 成 不 同 
的 网 络 。 神 经 网 络 是 一 种 运算 模型 ,由 大 量 的 节点 (或 称 神经 元 ) 之 间 相 互 连 接 构成 。 每 个 
节点 代表 一 种 特定 的 输出 函数 , 称 为 激励 函数 。 每 两 个 节点 间 的 连接 都 代表 一 个 对 于 通过 
该 连接 信号 的 加 权 值 , 称 之 为 权重 ,这 相当 于 人 工 神经 网 络 的 记忆 。 网 络 的 输出 根据 网 络 的 
连接 方式 .权重 值 和 激励 函数 的 不 同 而 不 同 ,而 网 络 自身 通常 都 是 对 自然 界 某 种 算法 或 者 函 
数 的 盘 近 ,也 可 能 是 对 一 种 逻辑 策略 的 表达 。 人 工 神经 网 络 在 模式 识别 .智能 机 器 人 、 自 动 
控制 .预测 估计 、 生 物 、 医 学 、 经 济 等 领域 已 成 功 地 解决 了 许多 现代 计算 机 难以 解决 的 实际 问 
题 ,表现 出 了 良好 的 智能 特性 。 神 经 网 络 的 优势 如 下 : 

(1) 可 以 任意 精度 逼近 任意 函数 。 

(2) 神经 网 络 方法 本 身 属 于 非 线性 模型 ,能够 适应 各 种 复杂 的 数据 关系 。 

(3) 神经 网 络 具备 很 强 的 学 习 能 力 ,能够 比 很 多 分 类 算法 更 好 地 适应 数据 空间 的 变化 。 








(4) 神经 网 络 借鉴 人 脑 的 物理 结构 和 机 理 ,能 模拟 人 脑 的 某 些 功 能 ,具备 “智能 ”的 
SOM 神经 网 络 聚 类 算法 是 典型 的 基于 模型 思想 的 聚 类 方法 ,下 面 阐述 SOM 神经 网 络 
的 工作 原理 、 算 法 的 训练 过 程 及 应 用 。 


7.4.1 SOM 算法 的 原理 及 步 又 


SOM(Self Organizing Maps, 自 组 织 映 射 神经 网 络 ) 的 提出 者 芬兰 学 者 Teuvo Kohonen 
认为 ,处 于 空间 不 同 区 域 的 神经 元 有 不 同 的 分 工 , 当 一 个 神经 网 络 接受 外 界 输入 模式 时 ,将 
会 分 为 不 同 的 反应 区 域 ,各 区 域 对 输入 模式 具有 不 同 的 响应 特征 。 

SOM 神经 网 络 算法 是 根据 这 个 特性 设计 的 , 它 能 把 任意 高 维 输入 数据 变换 到 低 维 (如 
一 维 或 二 维 ) 的 网 格 映射 图 中 ,并 保持 一 定 的 拓扑 有 序 性 。 映 射 图 上 相似 度 大 的 神经 元 靠 得 
比较 近 , 相 似 度 小 的 神经 元 分 得 比较 开 。 因 此 ,SOM 神经 网 络 在 数据 分 析 中 具有 独特 而 又 
强大 的 功能 。 

作为 一 种 基于 神经 网 络 观 点 的 聚 类 和 数据 可 视 化 技术 ,SOM 是 一 种 无 导师 神经 网 络 ， 
可 以 对 数据 进行 无 监督 学 习 聚 类 。 网 络 的 拓扑 结构 是 由 一 个 输入 层 和 一 个 输出 层 构成 。 输 
入 层 的 节点 数 即 为 输入 样本 的 维 数 ,其 中 每 一 节点 代表 输入 样本 中 的 一 个 分 量 ,对 应 一 个 高 
维 的 输入 向 量 。 输 出 层 由 一 系列 组 织 在 二 维 网 格 上 的 有 序 节点 构成 ,节点 排列 结构 是 二 维 
阵列 。 输 入 层 X 中 的 每 个 节点 均 与 输出 层 Y 的 每 个 神经 元 节点 通过 一 权 值 ( 权 矢量 为 W) 
相连 接 ,这 样 每 个 输出 层 节 点 均 对 应 于 一 个 连接 权 矢 量 。 在 学 习 过 程 中 ,找到 与 之 距离 最 短 
的 输出 层 单元 , 即 获 胜 单元 ,对 其 更 新 。 同 时 ,将 邻近 区 域 的 权 值 更 新 ,使 输出 节点 保持 输入 
向 量 的 拓扑 特征 。 

SOM 算法 的 思想 很 简单 ,本质 上 是 一 种 只 有 输入 层 一 一 隐藏 层 的 神经 网 络 。 隐 藏 层 中 
的 一 个 节点 代表 一 个 需要 聚 成 的 类 。 训 练 时 采用 “竞争 学 习 ” 的 方式 ,每 个 输入 的 样 例 在 隐 
藏 层 中 找到 一 个 和 它 最 匹配 的 节点 , 称 为 它 的 激活 节点 。 紧 接着 用 随机 梯度 下 降 法 更 新 激 
活 节 点 的 参数 。 同 时 ,和 激活 节点 临近 的 点 也 根据 它们 距离 激活 节点 的 远近 而 适当 地 更 新 
参数 。 

所 以 ,SOM 的 一 个 特点 是 隐藏 层 的 节点 是 有 拓扑 关系 
的 。 既 然 隐 藏 层 是 有 拓扑 关系 的 ,SOM 可 把 任意 维度 的 输入 
离散 化 到 一 维 或 者 二 维 ( 更 高 维度 的 不 常见 ) 的 离散 空间 上 。 
计算 层 (Computation Layer) 里 面 的 节点 与 输入 层 (Input 
Layer) 的 节点 是 全 连接 的 。 如 果 想 要 一 维 的 模型 ,那么 隐藏 bo o oe 输入 层 
节点 依次 连 成 一 条 线 ; 如 果 想 要 二 维 的 拓扑 关系 ,那么 就 形成 图 7-9 二 维 拓扑 模型 
一 个 平面 (也 叫 Kohonen Network) ,如 图 7-9 所 示 。 

SOM 是 竞争 式 学 习 网 络 ,每 当 一 个 向 量 被 提交 ,具有 最 近 权 值 向 量 的 那个 神经 元 将 竞 
争 获胜 。 获 胜 神 经 元 及 其 邻 域 内 的 神经 元 将 移动 它们 的 权 值 向 量 , 从 而 离 输入 向 量 更 近 一 
些 。 权 向 量 有 两 个 趋势 : 首先 ,它们 随 着 更 多 的 输入 向 量 被 提交 而 分 布 到 整个 输入 空间 。 
其 次 ,它们 移 向 邻 域内 的 神经 元 。 两 个 趋势 共同 作用 ,使 神经 元 在 那 一 层 重新 排列 ,从 而 最 
终 输入 空间 得 到 分 类 。SOM 算法 实现 的 基本 流程 如 图 7-10 所 示 。 

SOM 的 算法 流程 如 下 : 
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图 7-10 SOM 算法 实现 的 基本 流程 
(1) 初始 化 。 权 值 使 用 较 小 的 随机 值 进 行 初始 化 ,并 对 输入 向 量 和 权 值 做 归 一 化 处 理 。 


Ad 

wi= wi/| will, 1<=i<=m 

上 XX 上 和 wi 分别 为 输入 的 样本 向 量 和 权 值 向 量 的 欧 几 里 得 范 数 。 

(2) 将 样本 输入 网 络 。 样 本 与 权 值 向 量 做 点 积 , 点 积 值 最 大 的 输出 神经 元 赢得 营 争 ; 
或 者 计算 样本 与 权 值 向 量 的 欧 几 里 得 距离 ,距离 最 小 的 神经 元 赢得 竞争 , 记 为 获胜 神经 元 。 

(3) 更 新 权 值 。 对 获胜 的 神经 元 拓扑 邻 域内 的 神经 元 进行 更 新 ,并 对 学 习 后 的 权 值 重 
新 归 一 化 。 





w(t+l)= w(t)+ Ttn) * (x- w(t)) 

1(t,n) 2: 为 学 习 率 是 关于 训练 时 间 + 和 与 获胜 神经 元 的 拓扑 距离 n 的 函数 。 

Nn(t,n)=n(t)e’ (- n) 

11(t) 一 般 取 和 迭代 次 数 的 倒数 。 

(4) 更 新 学 习 速 率 7% 及 拓扑 邻 域 N 。N 随时 间 增 大 ,距离 变 小 。 

(5) 判断 是 否 收敛 。 如 果 学 习 率 wy 一 二 win ,或 达到 预 设 的 迭代 次 数 ,结束 算法 。 

每 个 节点 随机 初始 化 自己 的 参数 。 每 个 节点 的 参数 个 数 与 Input 的 维度 相同 。 

@ 对 于 每 一 个 输入 数据 ,找到 与 它 最 相配 的 节点 。 假 设 输入 时 D 维 的 , 即 X= {zx_i， 
i 二 1,…,D) ,那么 判别 函数 可 以 为 欧 几 里 得 距离 。 

D 
dj(7x) = 了 >) (ri — wa)’ 

@ 找到 激活 节点 I(z) 之 后 ,需要 更 新 和 它 临 近 的 节点 。 令 S_ij 表示 节点 i 和 j 之 间 

的 距离 ,对 于 T(z) 临 近 的 节点 ,分 配给 它们 一 个 更 新 权重 。 





Treo = exp(— S$.rw /20) 
简单 地 说 ,临近 的 节点 根据 距离 的 远近 ,更 新 程度 要 打折 扣 。 
@ 按照 梯度 下 降 法 更 新 节点 的 参数 。 

Amoi 一 Ti) X Tj,nn (2) X xi — wi) 


迭代 ,直到 收敛 。 


python 实现 SOM 神经 网 络 聚 类 算法 的 代码 如 下 : 


# 初 始 化 输入 层 与 竞争 层 神 经 元 的 连接 权 值 甜 阵 
def initCompetition(n, m, d): 
# 随 机 产生 0 和 1 之 间 的 数 作为 权 值 
array = random.random(size=n* m* qd) 
com weight = array.reshape (n,m,d) 
return com weight 
# 计 算 向 量 的 二 范 数 
def cal2NF (X) : 
res= 0 
for x in xX: 
res += x*x 
return res ** 0.5 
# 对 数据 集 进行 归 一 化 处 理 
def normalize (dataSet): 
old dataSet = copy (dataSet) 
for data in dataSet: 
two NF = cal2NF (data) 
for i in range (len (data)): 
data[i] = data[i] / two NF 
return dataSet , old dataSet 
# 对 权 值 矩阵 进行 归 一 化 处 理 
def normalize weight (com weight): 
for x in com weight: 
for data in x: 
two NF = cal2NF (data) 
for i in range (len (data)): 
data[i] = data[i] / two NF 
return com weight 
# 得 到 获胜 神经 元 的 索引 值 
def getWinner (data , com weight) : 
mx sim= 0 
nmd= shape(com weight) 
mrk n= 0 
mrk m= 0 
for i in range (n) : 
for j in range (m) : 
if sum(data * com weight[i,j]) > max sim: 
max sim = sum(data * com weight[i,j]) 
mark n= i 
mark m= jj 
return mark n , mark m 


## 得 到 神经 元 的 机 邻 域 





def getNeibor (n , m, N neibor ，com weight) : 
ss= 上 器 
nmm, = Shape (cam weight) 
for i in range (nn) : 
for j in range (mm) : 
N= int(((i- n)**2+ (]- m)**2)**0.5) 
if N< =N neibor: 
res.append ( (i,j,N)) 
return res 
# 学 习 率 函数 
def etal(t,N): 
return (0.3/(t+1))* (math.e** 一 N) 
# SOM 算 法 的 实现 
def do_som(dataSet ，com weight，T ，N_neibor) : 
or 
:最 大 选 代 次 数 
N_neibor: 初 始 近邻 数 
fort in range(T- 1): 
Com weight = normalize weight (com weight) 
for data in dataSet: 
n,m= getWinner (data , com weight) 
neibor = getNeibor(n , m, N_neibor , com weight) 
for x in neibor: 
jn=x[0];j mx[1];N=x[2] 
# 权 值 调整 


com weight[j am][j_ m] = com weight[j njJ[j m] + eta(t,N)* (daata - com 


weight[j nj[j mg) 
N neibor = N neibor+1- (t+1)/200 
res= {} 
N, M, _=shape(com weight) 
for i in range (len (dataSet)): 
ny m= getWinner (dataSet[i], com weight) 
key= n*M+ m 
if res.has key (key): 
res[key] .append (i) 
else: 
res[key] = [] 
res[key] .append (i) 
return res 
# SOM 算 法 主 方法 
def SOM(dataSet,com_ n,com m,T,N neibor): 
dataset, old dataSet = normalize (dataSet) 
com weight = initCompetition (com n,com m,shape (dataSet)[1]) 
C res= do som(dataSet, com weight, T, N_ neibor) 
draw(C res, dataSet) 
draw(C_res, old dataset) 


通过 下 面 的 测试 数据 对 上 面 算法 进行 结果 测试 。 
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0.774,0.376 
0.634,0.264 
0.608,0.318 
0.556,0.215 
0.403,0.237 
0.481,0.149 
0.437,0.211 
0.666,0.091 
0.243,0.267 
0.245,0.057 
0.343,0.099 
0.639,0.161 
0.657,0.198 
0.36,0.37 

0.593,0.042 
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0.339,0.241 
0.282,0.257 
0.748,0.232 
0.714,0.346 
0.483,0.312 
0.478,0.437 
0.525,0.369 
0.751,0.489 
0.532,0.472 
0.473,0.376 
0.725,0.445 
0.446,0.459 


聚 类 结果 如 图 7-11 和 图 7-12 所 示 。 
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图 7-11 按照 归 一 化 的 数据 绘制 的 聚 类 结果 
神经 网 络 在 聚 类 方面 表现 的 特征 与 分 类 相似 ,对 数据 适应 性 强 , 对 噪声 数据 敏感 。 需 要 


注意 的 是 ,神经 网 络 的 输入 具有 连续 性 ,但 聚 类 结果 往往 是 分 类 数据 类 型 ,所 以 对 于 神经 网 
络 的 输出 结果 通常 要 按照 区 间 径 向 转换 。 
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图 7-12 按照 原 数 据 绘制 的 聚 类 结果 


SOM 算法 具有 对 输入 模式 的 自动 聚 类 作用 ,网 络 结构 简单 ,具有 很 好 的 生物 神经 元 特 
征 ,容错 性 与 自 稳 定性 较 强 ,同时 具有 特征 映射 的 能 力 。 但 聚 类 数目 和 初始 网 络 结构 固定 ， 
需要 用 户 预先 指定 聚 类 数目 和 初始 的 权 值 矩 阵 ; 可 能 会 出 现 一 些 始终 不 能 获胜 的 “死神 经 
元 ”, 和 一 些 因 为 经 常 获胜 被 过 度 利 用 的 神经 元 ,不 能 充分 利用 所 有 神经 元 信息 将 影响 聚 类 
质量 ; 要 向 SOM 网 络 中 加 入 新 的 类 别 ,必须 先 完 整地 重新 学 习 之 后 方 可 进行 ; 数据 的 输入 
顺序 会 影响 ,甚至 决定 了 输出 的 结果 ,数据 量 少时 尤为 明显 ; 连接 权 值 的 初始 值 .计算 策略 、 
参数 选择 不 当时 会 导致 网 络 收 和 敛 时 间 过 长 ,甚至 难以 达到 收敛 状 态 。 

与 K-Means 聚 类 方法 相 比 较 : 

(1) K-Means 需要 先 定 下 类 的 个 数 , 也 就 是 的 值 。SOM 则 不 用 ,隐藏 层 中 的 某 些 节 
点 可 以 没有 任何 输入 数据 属于 它 。 所 以 ,K-Means 受 初 始 化 的 影响 要 比较 大 。 

(2) K-Means 为 每 个 输入 数据 找到 一 个 最 相似 的 类 后 ,只 更 新 这 个 类 的 参数 。SOM 则 
会 更 新 临近 的 节点 。 所 以 ,K-Means 受 噪声 数据 的 影响 比较 大 ,因为 更 新 了 临近 节点 ; 
SOM 的 准确 性 可 能 会 比 K-Means 低 。 

(3) SOM 的 可 视 化 比较 好 ,被 称 为 优雅 的 拓扑 关系 图 。 


7.4.2 ”SOM 算法 实例 


【 例 7-3】 一 家 投资 公司 希望 对 债券 进行 合适 的 分 类 ,可 不 知道 分 成 几 类 合适 。 已 经 
知道 这 些 债 券 的 一 些 基本 属性 ( 见 表 7-1) ,以 及 这 些 债券 的 目前 评级 ,所 以 希望 先 通过 聚 类 

















来 确定 分 成 几 类 合适 。 
表 7-1 银行 客户 资料 的 属性 及 意义 
属性 名 称 属性 意义 及 类 型 
Type 债券 的 类 型 ,分 类 变量 
Name 发 型 债券 的 公司 名 称 , 字 符 变量 
Price 债券 的 价格 ,数值 型 变量 
Couon 票面 利率 ,数值 变量 











续 表 


























属性 名 称 属性 意义 及 类 型 
Maturity 到 期 日 ,符号 日 期 
YT™ 到 期 收益 效率 ,数值 变量 
Current Yield 当前 收益 效率 ,数值 变量 
Rating 评级 结果 ,分 类 变量 
Callable 是 否 随 时 可 偿还 ,分 类 变量 
MATLAB 实现 代码 如 下 : 
s 设 置 网 络 


dimensionl= 3; 
dimension2= 1; 


net= selforgmap ([ dimensionl dimension2]); 


net .trainParam. showWindow= 0; 


训练 网 络 

[net.tr]=train (net,bonds); 
nidx=net (bonds); 
nidx=vec2ind (nidx); 

s* 绘 制 聚 类 效果 图 

Fiqure 


F3=plot3(VX (nidx==1,1),VX (nidx==1,3),"r* ","" 
VX (nidx==2,1) ,VX (nidx==2,2) ,VX (nidx==2,3), 'bo',*": 
VX (nidx==3,1) ,VX (nidx== 32) ,VX (nidx== 3,3), 'kd'); 


set(gca, 'linewidth',2); 
grid on 


Set (F3, 'linewidth',2, 'MarkerSize',8); 


xlabel (' 票 面 利率 ', 'fontsize',12); 
ylabel (' 评 级 得 分 ', 'fontsize',12); 
ylabel(' 到 期 收益 率 ', 'fontsize'v12) 
title(" 神 经 网 络 方法 聚 类 结果 


图 7-13 所 示 为 神经 网 络 聚 类 方法 产生 的 聚 类 效果 。 





图 7-13 神经 网 络 聚 类 方法 产生 的 聚 类 效果 


75 模糊 FM 算法 


模糊 聚 类 分 析 是 聚 类 分 析 的 一 种 , 它 是 一 种 采用 模糊 数学 语言 对 事物 按 一 定 的 要 求 进 
行 描述 和 分 类 的 数学 方法 。 

聚 类 分 析 按 照 不 同 的 分 类 标准 可 以 进行 不 同 的 分 类 。 聚 类 分 析 按 照 隶 属 度 的 取 值 范围 
可 以 分 为 两 类 : 一 类 是 硬 聚 类 算法 ; 另 一 类 是 模糊 聚 类 算法 。 隶 属 度 的 概念 是 从 模糊 集 理 
论 里 引申 出 来 的 。 传 统 的 硬 聚 类 算法 隶属 度 只 有 0 和 1 两 个 值 ,也 就 是 说 一 个 样本 只 能 完 
全 属于 某 一 个 类 或 者 完全 不 属于 某 一 个 类 。 举 个 例子 ,把 温度 分 为 两 类 ,大 于 10Y 为 热 ,小 
于 或 者 等 于 107 为 冷 ,那么 不 论 是 5C 还 是 一 100C 都 属于 冷 这 个 类 ,而 不 属于 热 这 个 类 ,这 
就 是 典型 的 “ 硬 隶 属 度 ” 概 念 ,而 模糊 集 里 的 隶属 度 是 一 个 取 值 在 L0 1] 区 间 内 的 数 。 一 个 样 
本 同时 属于 所 有 的 类 ,通过 隶属 度 的 大 小 来 区 分 其 差异 。 例 如 5C ,可 能 属于 冷 这 个 类 的 隶 
属 度 值 为 0.7, 而 属于 热 这 个 类 的 隶属 度 值 为 0.3。 这 样 做 就 比较 合理 , 硬 聚 类 也 可 以 看 作 
模糊 聚 类 的 一 个 特例 。 

模糊 聚 类 分 析 一 般 是 指 根据 研究 对 象 本 身 的 属性 来 构造 模糊 矩阵 ,并 在 此 基础 上 根据 
一 定 的 隶属 度 来 确定 聚 类 关系 , 即 用 模糊 数学 的 方法 把 样本 之 间 的 模糊 关系 做 定量 的 确定 ， 
从 而 客观 且 准 确 地 进行 聚 类 。 聚 类 是 将 数据 集 分 成 多 个 类 或 得 ,使 得 各 个 类 之 间 的 数据 差 
别 应 尽 可 能 大 ,类 内 之 间 的 数据 差别 应 尽 可 能 小 , 即 采 用 “最 小 化 类 间 相 似 性 ,最 大 化 类 内 相 
似 性 ”原则 ,克服 了 非 此 即 彼 的 分 类 缺点 。 

模糊 聚 类 分 析 作 为 无 监督 机 器 学 习 的 主要 技术 之 一 ,是 用 模糊 理论 对 重要 数据 分 析 和 
建 模 的 方法 ,建立 了 样本 类 属 的 不 确定 性 描述 ,能 比较 客观 地 反映 现实 世界 , 它 已 经 有 效 地 
应 用 在 大 规模 数据 分 析 、 数 据 挖掘 、 矢 量 量 化 图像 分 割 、 模 式 识 别 等 领域 ,具有 重要 的 理论 
与 实际 应 用 价值 , 随 着 应 用 的 深入 发 展 , 模 糊 聚 类 算法 的 研究 不 断 丰 富 。 

在 众多 模糊 聚 类 算法 中 ,模糊 C- 均 值 聚 类 算法 (Fuzzy C-Means Algorithm,FCM) 应 用 
最 广泛 且 较 成 功 。 


7.5.1 FCM 算法 原理 和 步 又 


FCM 算法 是 一 种 以 隶属 度 来 确定 每 个 数据 点 属于 某 个 聚 类 程度 的 算法 。 该 聚 类 算法 
是 传统 硬 聚 类 算法 的 一 种 改进 。 它 通过 优化 目标 函数 得 到 每 个 样本 点 对 所 有 类 中 心 的 隶属 
度 , 从 而 确定 样本 点 的 类 属 , 以 达到 自动 对 样本 数据 进行 分 类 的 目的 。 不同 于 K 均值 以 质 
心 为 中 心 , 簇 是 确定 的 特点 。FCM 算法 的 聚 类 簇 的 定义 界限 是 模糊 的 ,模糊 C 均值 中 ,每 
个 数据 点 元 素 到 每 个 徐 都 存在 一 个 隶属 度 ,每 个 数据 点 到 所 有 簇 的 隶属 度 之 和 为 1。 素 属 
度 又 叫 作 隶属 权 值 ,用 W 表示 。 

1. FCM 算法 原理 

FCM 算法 的 思想 是 : 先 人 工 随机 指定 每 个 数据 到 各 个 得 的 隶属 度 , 即 模糊 伪 划 分 , 然 
后 根据 隶属 度 计算 每 一 个 簇 的 质心 ,接着 通过 更 新 隶属 度 矩 阵 重新 进行 伪 划分 ,直到 质心 不 
变化 。 严 格 意义 上 说 ,直到 所 有 隶属 度 的 变化 的 绝对 值 都 低 于 所 设 定 的 阔 值 。 

FCM 聚 类 算法 流程 : 

(1) 标准 化 数据 矩阵 。 





(2) 建立 模糊 相似 矩阵 ,初始 化 隶属 矩阵 。 

(3) 算法 开始 迭代 ,直到 目标 函数 收敛 到 极 小 值 。 

(4) 根据 迭代 结果 ,由 最 后 的 隶属 矩阵 确定 数据 所 属 的 类 ,显示 最 后 的 聚 类 结果 。 

FCM 算法 步骤 (Ws 表示 数据 点 i 关于 簇 j 的 隶属 度 ); 

(1) 选择 一 个 初始 模糊 伪 划 分 , 即 对 所 有 的 Wi; 赋值 。 

(2) Repeat。 

(3) 根据 模糊 伪 划 分 ,计算 每 个 徐 的 质心 。 

(4) 重新 计算 模糊 伪 划 分 , 即 Ws 。 

(5) 直到 簇 的 质心 不 发 生变 化 。 

2. FCM 聚 类 算法 的 优 缺点 

相 比 其 他 的 “ 硬 聚 类 ”,FCM 方法 会 计算 每 个 样本 对 所 有 类 的 隶属 度 ,是 一 个 参考 该 样 
本 分 类 结果 可 靠 性 的 计算 方法 , 若 某 样本 对 某 类 的 隶属 度 在 所 有 类 的 隶属 度 中 具有 绝对 优 
势 , 则 该 样本 分 到 这 个 类 是 一 个 十 分 保险 的 做 法 ; 反之 , 若 该 样本 在 所 有 类 的 隶属 度 相 对 平 
均 , 则 需要 其 他 辅助 手段 来 进行 分 类 。 

FCM 算法 与 K-Means 算法 和 中 心 点 算法 等 相 比 , 它 省 去 了 多 重 迭 代 的 反复 计算 过 程 ， 
无 须 多 次 反复 扫描 数据 库 , 计 算 量 大 大 减少 ,效率 也 大 大 提高 ; 可 根据 实验 要 求 动态 设 定 m 
值 ,以 满足 不 同类 型 数据 挖掘 任务 的 需要 ; 适 于 高 纬度 的 数据 处 理 , 具 有 较 好 的 伸缩 性 。 

FCM 算法 主要 的 不 足 是 同一 个 样本 属于 所 有 类 的 隶属 度 之 和 为 1, 这 使 得 它 对 噪声 与 
野 值 敏感 。FCM 采用 的 是 迭代 下 降 的 算法 ,其 对 初始 化 的 聚 类 中 心 或 者 隶属 度 和 矩阵 敏感 ， 
导致 最 终 的 结果 不 是 全 局 最 优 解 ,而 是 收敛 到 局 部 极 值 点 或 者 鞍点 。FCM 中 的 聚 类 数目 N 
是 需要 输入 的 参数 ,错误 地 估计 N 值 将 使 算法 不 能 正确 揭示 X 的 聚 类 结构 。 

KFCM(Kenerl Fuzzy C-Means) 即 基于 核 函数 的 模糊 C 均值 算法 ,主要 是 将 传统 的 
FCM 算法 里 面 欧式 距离 利用 核 函 数 来 代替 ,进行 尺度 变换 并 利用 核 函 数 将 样本 映射 到 高 维 
空间 里 ,从 而 增加 了 类 别 之 间 的 差异 度 , 也 克服 了 经 典 的 FCM 对 模糊 类 别 不 好 处 理 的 
问题 。 

KFCM 算法 对 非 球 类 的 数据 聚 类 效果 比 FCM 算法 要 好 ,但 也 存在 一 些 不 足 之 处 。 

(1) 受 聚 类 数 的 影响 , 当 分 类 数 判断 错误 时 ,KFCM 会 导致 错误 的 聚 类 结果 。 

(2) 当 数 据 中 存在 噪声 点 时 ,由 于 其 本 身 对 噪声 敏感 ,因而 会 对 分 类 产生 错误 的 结果 。 


7.5.2 FCM 应 用 实例 


【 例 7-4】 模糊 C 均值 聚 类 算法 可 将 输入 的 数据 集 data 聚 为 指定 的 cluster_n 类 。 下 
面 就 用 产生 范围 在 0 和 1 之 间 均 匀 分 布 的 100X2 个 随机 数组 来 进行 MATLAB 的 模糊 C 
均值 聚 类 算法 演示 ,并 用 图 形 展示 聚 类 结果 及 FCM 与 KFCM 的 运行 结果 。 

FCM 算法 将 随机 数 聚 成 两 类 。 


data = rand(100,2); 
options = [2;100;le- 5;1]; 
[center,U,obj fcn] = FCM(data,2,options); 
figure; 

plot (data(:,1), data(:,2),'0'); 
title('DemoTest of FCM Cluster'); 





xlabel ("1st Dimension'); 
ylabel ('2nd Dimension'); 
grid on; 

hold on; 

maxU = max(U); 
indexl = find(U(1 
index2 = find(U(2, 
line (data (index1, 1) , data (index1, 2), 'marker', '* ', 'color', 'g'); 
line (data (index2,1) ,data (index2,2)， 'marker', '* ', 'color', 'r'); 
plot ([center ([1 2],1)],[center ([1 2],2)],'*",'color', 'k') 
hold off; 


结果 如 图 7-14 所 示 。 
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图 7-14 FCM 将 随机 数 聚 成 两 类 结果 
FCM 算法 将 随机 数 聚 成 3 类 。 


data = rand(100,2); 

options = [2;100;1e- 5;1]; 

< span style= "color:# ff0000;"> [center,U,obj fcn] = FCM(data,3,options); < /span> 
figure; 

plot (data (:,1), data(:,2),'0'); 

title ('DemoTest of FCM Cluster'); 

xlabel ('lst Dimension'); 


ylabel ('2nd Dimension'); 





grid on; 

hold on; 

maxU = max(U); 

indexl = find(U(1,:) == maxU); 

index2 = find(U(2，: maxU) 

< span style= "color:# ff0000;"> index3 = find(U(3,:) == maxU);< /span> 


line (data (index1,1) ,data (index1, 2), 'marker', '* ', 'color', "g' 
line (data (index2,1) , data (index?, 2), 'marker', '* ', 'color', 'r'); 
< span style="color:#ff0000;"> line (data (index3,1),data (index3,2), 'marker', '* ', 


"color','y');< /span> 


< span style= "color:# ff0000;"> plot (center (:,1)],[ center (:,2)],'*','color', 'k') < /span 


hold off; 


结果 如 图 7-15 所 示 。 
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图 7-15 FCM 将 随机 数 聚 成 3 类 结果 


MATLAB 下 FCM 算法 的 实现 代码 如 下 : 


function [center, U, obj_fcn] = FCM(data, cluster n, options) 


om op om Pm om wm om op mom mp om Pm wm om op 


采用 FcM( 模 糊 c 均 值 ) 算 法 将 数据 集 data 聚 为 cluster n 类 
用 法 : 

(1) [center,U,obj fcn] = FCM(Data,N cluster,options); 

(2) [center,U,obj fcn] = FCM(Data,N cluster); 

输入 : 

data ---- n*m 和 矩阵 ,表示 n 个 样本 ,每 个 样本 具有 m 维 特征 值 
cluster n ---- 标量 ,表示 聚合 中 心 数目 , 即 类 别 数 

options ---- 4*1 列 向 量 , 其 中 

options (1) : 隶属 度 和 矩阵 0 的 指数 ,> 1 (默认 值 : 2.0) 
options (2) : 最 大 和 迭代 次 数 默认 值 : 100) 

options (3) : 隶属 度 最 小 变化 量 ,迭代 终止 条 件 (默认 值 : 1e- 5) 
options (4) : 每 次 迭代 是 否 输出 信息 标志 (默认 值 : 0) 

输出 : 

center ---- 聚 类 中 心 

0D---- 隶属 度 和 矩阵 

cbj_fcn ---- 目标 函数 值 

Example: 

data= rand(100,2); 

options = [2;100;1e- 5;1]; 


[center,Uvobj_fcn] = FcM(data,2,options); 

figure; 

plot (data(:,1), data(:,2),'0'); 

title('DemoTest of FCM Cluster'); 

xlabel ('lst Dimension'); 

ylabel ('2nd Dimension'); 

grid on; 

hold on; 

maxU = max(U); 

indexl = find(U(1,:) == maxU); 

index2 = find(U(2,:) == maxU); 

line (data (index1, 1) ,data (index1, 2), "marker', '* ', 'color', 'g'); 
line (data (index2,1) ,data (index2, 2), "marker', '* ', 'color', 'r'); 
plot ([center ([1 2],1)],[center ([1 2],2)],'*', 'color', 'k') 

和 hold off; 

%% 初始 化 initialization 

% 输入 参数 数量 检测 

if nargin ~ = 2 && nargin ~ = 3% 判 断 输 入 参数 个 数 只 能 是 2 个 或 3 个 
error ('Too many or too few input arguments!'); 

end 


op op om op om om mo om oP om om op op 


data n= size(data, 1);% 求 出 data 的 第 一 维 (rows) 数 , 即 样本 个 数 
data m= size(data, 2);% 求 出 data 的 第 二 维 (columns) 数 , 即 特征 属性 个 数 
s 设置 默认 操作 参数 

default options= ... 

[2; % 隶属 度 矩 阵 0 的 指数 

100; % 最 大 迭代 次 数 

le- 5;% 隶属 度 最 小 变化 量 , 和 迭代 终止 条 件 

0];% 每 次 迭代 是 否 输出 信息 标志 

if nargin == 2 

s 如 果 输 入 参数 个 数 是 2, 那 么 就 调用 默认 的 option 

options = default options 

else 

s 如 果 用 户 给 的 opition 数 少 于 4 个 ,那么 其 他 用 默认 值 

if length (options) < 4 

tmp = default options; 

tmp (1:length (options)) = options; 

options = tmp; 


end 

s 检测 cptions 中 是 否 有 nan 值 

nan index = find(isnan(options)==1); 

s 将 denfault_options 中 对 应 位 置 的 参数 赋值 给 options 中 不 是 数 的 位 置 
options (nan index) = default options (nan index); 
s 如 果 模 糊 矩 阵 的 指数 小 于 等 于 1, 给 出 报错 

if options(1) < = 1, 

error ('The exponent should be greater than 1! '); 
end 

end 

将 options 中 的 分 量 分 别 赋值 给 四 个 变量 

expo = options(1); s 隶属 度 矩 阵 的 指数 

max iter = options(2);% 最 大 迭代 次 数 








min impro = options(3); % 素 属 度 最 小 变化 量 ,迭代 终止 条 件 
display = options (4);% 每 次 欠 代 是 否 输出 信息 标志 


cbj _fcn = zeros (max iter, 1);% 初始 化 输出 参数 obj_fcn 

DU= initfcm(cluster n, data n); s 初始 化 模糊 分 配 和 矩阵 ,使 0 满足 列 上 相 加 为 1 
ss Main loop 主要 循环 

fori= l:max iter 

s 在 第 上 步 循环 中 改变 聚 类 中 心 ceneter, 和 分 配 函 数 0 的 隶属 度 值 
[u，center，obj_fcn (i)] = stepfom(data, U, cluster n, expo); 


if display, 

fprintf ('FCM:Iteration count = $%d, obj.fcn= sf\n', i, obj fcn(i)); 
end 

终止 条 件 判别 

if i> 1 &&abs(obj fcn(i) - obj fcn(i- 1)) < = min impro 

break; 

end 

end 


iter n= is 实际 迭代 次 数 


obj_fcn(iter nt1:max iter) = []; 


ss initfcn 子 函数 

function U = initfcm(cluster_ n, data n) 
初始 化 fcm 的 隶属 度 函 数 矩 阵 

输入 : 

cluster n ---- 聚 类 中 心 个 数 
aatan ---- 样本 点 数 

输出 : 

0---- 初始 化 的 隶属 度 矩 阵 

U= rand(cluster n, data n); 

col sum= sum(U); 

U= U./col sum(ones (cluster n, 1), :); 
ss stepfcm 子 函数 

function [U_new, center, obj_fcn] = stepfoml(data, U, cluster n, expo) 


多 
刍 
旬 
多 
入 
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s 模糊 c 均 值 聚 类 时 迭代 的 一 步 

s 输入 : 

data ---- nrm 德 阵 ,表示 n 个 样本 ,每 个 样本 具有 m 维 特征 值 
s U---- 隶属 度 矩 阵 

s cluster n ---- 标量 ,表示 聚合 中 心 数目 , 即 类 别 数 

s expo ---- 隶属 度 和 矩阵 吕 的 指数 

s 输出 : 

s U new ---- 和 迭代 计算 出 的 新 的 隶属 度 和 矩阵 

名 center ---- 和 迭代 计算 出 的 新 的 聚 类 中 心 

名 obj_fcn ---- 目标 函数 值 


mf = U.^expo; s 隶属 度 矩 阵 进行 指数 运算 结果 

center = mf*data./((ones(size (data, 2), 1)* sum(mf'))');$ 新 聚 类 中 心 
dist = distfcm(center, data);% 计算 距离 矩阵 

cbj fcn = sum(sum((dist.^2).*mf));% 计算 目标 函数 值 

tmp = dist.^ (- 2/(expo- 1)); 

U_new = tmp./(ones (cluster n, 1)* sum(tmp)); s 计算 新 的 隶属 度 和 矩阵 
ss distfcn 子 函数 

function out = distfcm(center, data) 





s 计算 样本 点 距离 聚 类 中 心 的 距离 
s 输入 : 

s center ---- 聚 类 中 心 

s data ---- 样本 点 

输出 : 

s out ---- 距离 


out = zeros(size (center，1)，size (data， 1)); 

for k= 1:size (center,， 1) % 对 每 一 个 聚 类 中 心 

s 每 一 次 循环 求 得 所 有 样本 点 到 一 个 聚 类 中 心 的 距离 

out(k, :) = sqrt(sum(((data- ones(size(data,1),1)*center(k,:))."2)"',1)); 
end 


KFCM 与 FCM 的 测试 比较 : KFCM 是 FCM 的 一 种 改进 算法 ,由 于 篇 幅 有 限 , 这 里 就 
不 详细 介绍 改进 算法 ,有 兴趣 的 读者 可 以 自行 查阅 相关 知识 进行 学 习 , 这 里 只 简单 地 用 图 演 
示 与 FCM 之 间 的 比较 ,如 图 7-16 一 图 7-18 所 示 。 

测试 1 : 


= 聚 类 数目 : 2= 
= 样本 数目 : 1000== 


DemoTest of FCM Cluster Start= 












Elapsed time is 0.104910 seconds. 
iterFcm= 
81 





DemoTest of FCM Cluster Done= 
DemoTest of KFCM Cluster Start: 








iterKFcm = 
72 
Elapsed time is 0.085688 seconds. 


2nd Dimension 
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图 7-16 聚 类 数目 为 2, 样 本 数目 为 1000 的 比较 
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测试 2: 





: 2000== 
DemoTest of FCM Cluster Start= 








Elapsed time is 0.394891 seconds. 
iterFcm= 

304 
=DemoTest of FCM Cluster Done=== 
=DemoTest of KFCM Cluster Start= 








iterKFcm = 
146 








DemoTest of FCM Cluster Start= 
Elapsed time is 0.614612 seconds. 





iterFcm= 

347 
===== DemoTest of FCM Cluster Done=== 
= DemoTest of KFCM Cluster Start== 








iterKFcm = 
20 
Elapsed time is 0.081001 seconds. 


从 比较 中 可 以 看 出 ,KFCM 的 和 迭代 步骤 更 少 , 而 且 可 以 得 出 同样 模式 的 聚 类 ,能 更 有 效 
地 进行 聚 类 ,即将 核 函数 的 思想 引入 FCM 可 以 提高 聚 类 效率 ,也 可 以 提高 聚 类 的 效果 , 尤 
其 是 对 噪声 的 抵御 能 力 。 


7.6 并 行 聚 类 分 析 


大 数据 时 代 的 数据 量 剧 增 , 使 得 如 何 快速 有 效 地 对 大 规模 数据 进行 聚 类 分 析 处 理 成 为 
大 数据 挖掘 领域 的 一 个 具有 挑战 性 的 任务 。 并 行 聚 类 算法 将 并 行 计算 方法 与 聚 类 算法 结合 
起 来 ,充分 利用 多 台 处 理 器 资源 ,使 聚 类 算法 在 多 个 处 理 器 上 同时 运行 ,并 行 地 处 理 数 据 , 大 
大 缩短 了 聚 类 算法 的 执行 时 间 ,为 大 规模 数据 的 聚 类 分 析 处 理 提供 了 有 效 的 解决 办 法 。 


7.6.1 并 行 聚 类 的 分 类 


目前 ,已 经 有 一 些 聚 类 算法 在 并 行 计算 模型 下 得 到 了 实现 ,如 K-Means 算法 和 近邻 传 
播 聚 类 算法 (Affinity Propagation)。 

1. 并 行 K 系列 聚 类 

本 小 节 所 指 的 K 系列 算法 包括 K-Means、K-Modes、K-Medoids 等 算法 。 这 些 算法 都 
已 经 在 MapReduce 上 实现 了 并 行 计算 。 

K-Means 采用 MapReduce 计算 的 思路 如 下 : 首先 随机 选择 K 个 对 象 作为 初始 中 心 
点 ,然后 不 断 迭 代 计 算 , 直 到 未 知 数据 点 到 中 心 点 距离 的 平方 和 最 小 为 止 。 在 每 次 迭代 中 ， 
map() 函数 计算 每 个 对 象 到 中 心 点 的 距离 ,选择 距 每 个 对 象 最 近 的 中 心 点 ,并 输出 二 中 心 
点 ,对 象 二 。Reduce() 函数 计算 每 个 聚 类 中 对 象 的 距离 均值 ,并 将 这 K 个 均值 作为 下 一 轮 
的 初始 中 心 点 。 

K-Medoids 和 K-Means 的 区 别 在 于 中 心 点 的 选取 。 在 K-Means 中 ,中 心 点 取 为 当前 
簇 中 所 有 数据 点 的 平均 值 ; 在 K-Medoids 中 .从 当前 簇 中 选取 的 中 心 点 需要 满足 它 到 其 他 
所 有 当前 簇 中 的 点 的 距离 之 和 最 小 。K-Medoids 与 K-Means 在 MapReduce 上 并 行 实现 思 





路 类 似 。 

K-Modes 是 一 种 处 理 分 类 数据 的 聚 类 算法 。 它 是 对 K-Means 的 扩展 ,采用 0-1 差异 度 
来 代 蔡 K-Means 算法 中 的 距离 ,K-Modes 算法 中 差异 度 越 小 , 则 表示 距离 越 小 。 一 个 样本 
和 一 个 聚 类 中 心 的 差异 度 即 它们 各 个 属性 不 相同 的 个 数 ,不 相同 则 记 为 “1”, 最 后 计算 “1” 的 
总 和 。 这 个 和 就 是 某 个 样本 到 某 个 聚 类 中 心 的 差异 度 。 该 算法 除了 差异 度 的 计算 与 K- 
Means 不 同 外 ,其 他 都 相同 ,所 以 在 MapReduce 上 其 并 行 实现 思路 也 类 似 。 

2. 并 行 谱 聚 类 

谱 聚 类 (Spectral) 算 法 源 于 谱 图 割 分 理论 , 它 是 一 类 算法 的 统称 。 谱 聚 类 算法 将 问题 转 
化 为 一 个 无 向 图 的 多 路 划分 问题 ,每 个 子 图 内 的 数据 样本 点 相似 度 较 高 ,而 不 同 子 图 之 间 的 
相似 程度 较 低 。 比 较 常见 的 是 K-Means 谱 聚 类 。 

K-Means 谱 聚 类 结合 MapReduce 并 行 计算 模型 ,通过 评估 分 布 式 集群 稀 朴 矩阵 特征 
值 的 计算 ,从 而 将 谱 聚 类 并 行 化 ,提高 了 执行 速度 。 具 体 策略 是 : 计算 相似 矩阵 和 稀 化 时 按 
数据 点 标识 切 分 ,计算 特征 向 量 时 把 拉 普 拉 斯 矩阵 存 到 分 布 式 文件 系统 HDFS 上 。 采 用 分 
布 式 Lanczos 运算 ,并行 计 算得 到 特征 向 量 , 最 后 对 特征 向 量 的 转 置 矩 阵 采 用 并 行 K-Means 
聚 类 得 到 聚 类 结果 ,通过 对 算法 的 每 一 步 采用 不 同 的 并 行 策略 ,使 得 整个 算法 在 速度 上 获得 
线性 增长 。 

3. 并 行 Jarvis-Patrick 聚 类 

Jarvis-Patrick( 简 称 JP) 聚 类 运行 在 单 节点 上 时 ,使 用 共享 最 近邻 CSNN) 相 似 度 作为 两 
个 节点 之 间 相 似 度 的 计算 方法 ,通过 稀疏 化 共享 最 近邻 相似 度 矩 阵 得 到 聚 类 徐 。JP 聚 类 算 
法 擅长 处 理 噪声 和 离 群 点 ,并 且 能 够 处 理 不 同 大 小 、 形 状 和 密度 的 簇 ,对 高 维 数据 效果 良好 ， 
尤其 擅长 发 现 强 相 关 对 象 的 紧 致 徐 。 首 先 通过 计算 直接 相似 度 构造 邻近 度 和 矩阵 ,然后 计算 
该 邻近 度 矩 阵 的 K 最 近邻 将 其 稀 朴 化 , 接 下 来 计算 各 个 节点 的 SNN 相似 度 ,构造 SNN 相 
似 度 矩阵 ,最 后 通过 设 定 阔 值 ,将 SNN 相似 度 矩 阵 稀 朴 化 , 找 出 其 中 的 连通 分 支 , 即 聚 类 
得 。 整 个 流程 的 核心 在 于 SNN 最 近邻 表 的 创建 ,之 后 通过 Map 函数 和 Reduce 函数 将 整个 
流程 并 行 化 。 

4. 并 行 近邻 传播 聚 类 

近邻 传播 聚 类 算法 (Affinity Propagation) 是 一 种 处 理 分 类 数据 的 聚 类 算法 ,其 并 行 策 
咯 是 先 把 吸引 度 和 矩阵 和 归属 度 矩 阵 分 布 式 存储 在 HBase 上 ,每 次 迭代 中 的 吸引 度 和 矩阵 和 归 
属 度 矩阵 的 计算 按 行 分 割 ,使 其 矩阵 值 的 运算 按 行 分 布 在 多 台 机 器 上 , 随 着 机 器 的 增加 ,以 
线性 的 增长 速度 加 快 算法 的 运算 。 

5. 并 行 聚 类 (ICADD) 算 法 

1) CADD 算法 的 分 析 

基于 密度 和 自 适应 密度 可 达 聚 类 算法 (Clustering Algorithm Based on Density and 
Density Reachable,CADD) 的 整体 思路 如 下 : 

第 一 步 ,算法 根据 对 象 的 密度 找到 数据 集中 密度 最 大 的 数据 点 〇 ,将 其 作为 第 一 个 簇 中 


心 点 ,以 邻 域 半径 R 画 圆 , 落 在 此 圆 内 的 数据 点 就 是 O 点 的 直接 密度 可 达 簇 包 , 如 图 7-19 
所 示 。 


第 二 步 , 以 此 直接 密度 可 达 包 内 的 对 象 (比如 Pi 点 ) 为 中 心 、 以 邻 域 半径 R 再 画 圆 ,得 
到 新 的 密度 可 达 簇 包 , 如 图 7-19 中 所 示 的 点 。 


第 三 步 ,继续 寻找 密度 可 达 包 ,依次 类 推 , 直 到 找 不 到 密度 可 达 的 数据 点 。 

第 四 步 ,将 上 面 得 到 的 点 集合 并 ,得 到 最 终 的 簇 C1, 如 图 7-19 所 示 。 再 在 数据 集中 剩 
余 的 数据 点 中 寻找 密度 核心 点 ,重复 上 一 过 程 ,直到 所 有 数据 点 都 被 聚 类 完毕 。 其 中 ,根据 
用 户 的 请 求 , 某 个 形成 的 簇 包 中 ,成 员 个 数 小 于 给 定 的 孤立 点 阅 值 的 簇 将 不 作为 成 形 簇 ,将 
数据 计 入 孤立 点 链表 中 ,如 图 7-19 中 黑色 圆圈 表示 的 点 。 
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图 7-19 CADD 算法 执行 过 程 图 解 


2) ICADD 算法 (基于 密度 和 自 适应 密度 可 达 的 增 量 聚 类 算法 ) 

在 CADD 算法 的 基础 上 ,针对 大 数据 量 提出 了 基于 密度 可 达 的 增 量 聚 类 算法 ,英文 简 
称 ICADD(Incremental Clustering Algorithm Based on Density and Density-reachable) 。 

算法 思路 : 

第 一 步 ,利用 CADD 算法 对 初始 数据 集 进行 聚 类 ,得 到 数据 对 象 徐 和 孤立 点 集 。 

第 二 步 , 当 出 现 增 量 数据 集 时 ,在 增 量 数据 集中 依次 寻找 各 数据 对 象 簇 成 员 的 密度 可 达 
包 , 并 链接 到 相应 的 簇 链表 中 。 

第 三 步 , 将 增 量 数据 集中 剩余 的 数据 点 和 第 一 步 中 的 孤立 点 合并 ,再 次 利用 CADD 算 
法 进行 聚 类 。 对 其 他 的 增 量 数据 集 循环 执行 第 二 、 三 步 。 

ICADD 算法 实现 步骤 : 输入 包括 增 量 集 数目 ,初始 数据 集 AD, ,初始 密度 可 达 距 离 调 节 
系数 coe/R、 密 度 参数 o。 输 出 包括 簇 数 目 开 , 徐 数据 对 象 . 徐 密度 吸引 点 .孤立 点 或 噪声 。 

(1) 利用 CADD 算法 对 初始 数据 集 AD。 聚 类 ,得 到 簇 Cu ,Co ,…,Cor 和 孤立 点 集 O06; 
并 从 内 存 中 释放 数据 集 AD 。 

j=0; 

repeat; 

I= 

repeat; 

(2) 将 增 量 数据 集 ADi+: 调 和 人 内存, 根据 密度 可 达 条 件 搜索 与 艇 C; 属 于 同一 簇 的 数据 
对 象 (将 这 些 数 据 对 象 存 放 到 Cr 的 聚 类 链表 中 ,同时 从 ADi+: 删 除 这 些 数据 对 象 ) 。 


untili=k; 


(3) 再 次 利用 CADD 算法 对 ADi+: 中 剩余 的 数据 对 象 和 孤立 点 集 Oi 中 的 数据 对 象 进 
行 聚 类 ,得 到 簇 Ca+ ,Ca+s，… ,Cats 和 新 的 孤立 点 集 O;; 并 从 内 存 中 释放 数据 集 AD;+1; 

k=ktq; q 呈 0; 

j=j+1; 

until j=m; 


7.6.2 并 行 聚 类 算法 流程 


上 一 节 介绍 了 并 行 K 系列 聚 类 、 并 行 谱 聚 类 等 并 行 聚 类 算法 ,它们 虽然 是 不 同 的 聚 类 
算法 并 行 化 后 实现 的 ,但 是 算法 大 体 结构 流程 类 似 ,并 行 聚 类 算法 一 般 分 为 以 下 3 个 步骤 。 

(1) 根据 数据 划分 策略 ,等 量 或 差 量 地 划分 待 聚 类 的 数据 集 为 p 个 数据 子 集 ,并 且 把 每 
个 数据 子 集 发 送 到 各 个 节点 。 其 中 ,zp 为 当前 可 用 的 节点 个 数 。 

(2) 在 各 个 节点 上 对 本 地 数据 集运 行 局 部 聚 类 算法 ,形成 各 自 簇 的 集合 和 孤立 点 聚合 ， 
聚 类 完成 后 把 结果 发 送 给 主 节点 。 

(3) 主 节 点 收 到 各 个 其 他 节点 的 聚 类 结果 后 ,首先 对 所 有 孤立 点 结合 应 用 局 部 聚 类 算 
法 ,形成 秘 的 集合 和 孤立 点 集合 ,这 个 孤立 点 集合 就 是 最 终 的 孤立 点 。 然 后 应 用 聚 类 合 
并 技术 对 各 个 节点 的 聚 类 结果 以 及 刚才 的 聚 类 结果 ( 即 复 的 集合 ) 进 行 合并 ,形成 最 终 的 


7.6.3 基于 MapReduce 聚 类 分 析 


MapReduce 是 一 种 编程 模型 ,用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 行 运算 。MapReduce 
可 以 切 分 成 一 系列 运行 于 分 布 式 集群 中 的 Map 和 Reduce 任务 ,每 个 任务 只 运行 全 部 数据 
的 一 个 指定 的 子 集 ,以 此 达到 整个 集群 的 负载 平衡 。Map 任务 通常 为 加 载 、 解 析 、 转 换 与 过 
滤 数 据 , 每 个 Reduce 处 理 Map 输出 的 一 个 子 集 。Reduce 任务 会 去 Map 任务 端 复 制 中 间 
数据 来 完成 分 组 、 聚 合 。 

基于 MapReduce 的 聚 类 算法 主要 有 基于 MapReduce 的 K-Means 算法 和 基于 
MapReduce 的 CADD 算法 以 及 基于 MapReduce 的 Apriori 算法 三 种 。 当 数据 规模 是 海量 
级 别 时 ,对 算法 本 身 的 运行 效率 是 个 考验 ,而 基于 MapReduce 的 聚 类 算法 使 用 并 行 计算 的 
方式 ,将 算法 并 行 化 ,从 而 提高 算法 的 运行 速度 。 

基于 MapReduce 的 并 行 聚 类 模型 的 难点 在 于 规划 不 同 输入 与 输出 的 键 值 (Key/ 
Value) 对 ,海量 数据 的 聚 类 挖掘 则 需要 考虑 采用 多 个 MapReduce 过 程 来 处 理 ,该 模型 采用 
3 个 MapReduce 步骤 来 实现 。 

(1) 数据 准备 。 

根据 计算 节点 的 数量 对 海量 原始 数据 集 D 进行 划分 ,形成 p 个 子 数 据 集 D' ,D; ,D，… 
(Pp 为 节点 个 数 或 进程 数 ) ,然后 使 用 MapReduce 模式 对 其 进行 处 理 。 

Map 处 理 : 确定 各 个 子 数据 集 的 Key/Value 键 值 对 。 

Reduce 处 理 : 将 Map 处 理 后 输出 的 Key/Value 对 照 Key 进行 排序 ,将 Key 键 相同 的 
数据 统一 由 一 个 Reduce 进行 处 理 , 保 存 输出 结果 ,作为 下 一 个 步骤 的 输入 数据 。 

(2) 并 行 聚 类 。 

对 第 (1) 步 处 理 输出 的 结果 分 别 进行 聚 类 ,形成 多 个 局 部 聚 类 结果 ,再 次 进行 


MapReduce 处 理 。 

Map 处 理 : 每 个 Mapper 以 聚 类 后 的 局 部 聚 类 结果 作为 输入 ,并 以 簇 中 心 作为 Key 值 ， 
存储 中 间 数 据 。 

Reduce 处 理 : 对 聚 类 处 理 后 的 数据 进行 Reduce 处 理 , 输 出 数据 中 ,对 所 有 相同 簇 中 心 
的 各 个 簇 进行 合并 ,形成 新 的 聚 类 簇 。 输 出 并 存储 结果 ,作为 下 一 次 处 理 的 输入 数据 。 

(3) 合并 结果 。 

得 第 (2) 步 处 理 输 出 结果 作为 输入 ,进行 MapReduce 处 理 , 该 步骤 使 用 多 个 Mapper 函 
数 , 根 据 不 同 特征 值 合并 后 的 数据 数量 ,将 所 有 聚 类 结果 根据 聚 类 特征 键 值 进行 合并 ,形成 
最 终 处 理 结果 。 

Map 处 理 : 每 个 Mapper 以 第 (2) 步 输出 的 中 间 结 果 作 为 输入 ,以 新 的 聚 类 簇 中 心 点 作 
为 Key 值 ,存储 中 间 数 据 。 

Reduce 处 理 : 将 Mapper 传 来 的 具有 聚 类 徐 进 行 特征 值 提取 ,并 对 具有 相同 特征 值 的 
聚 类 簇 进行 合并 , 仅 使 用 一 个 Reduce 函数 ,对 合并 后 的 数据 ,形成 最 终 聚 类 结果 。 


7.7 其 他 聚 类 分 析 算 法 


1. 基于 密度 的 聚 类 分 析 算 法 

基于 密度 的 聚 类 算法 是 指 在 整个 样本 空间 点 中 ,各 目标 类 得 是 由 一 群 的 稠密 样本 点 组 
成 的 ,而 这 些 稠密 样本 点 被 低 密度 区 域 噪声 分 割 , 算 法 的 目的 就 是 要 过 滤 低 密度 区 域 ,发 现 
稠密 样本 点 。 

基于 高 密度 联通 区 域 的 聚 类 算法 (DBSCAN) 是 基于 密度 的 聚 类 算法 ,可 以 将 足够 高 密 
度 的 区 域 分 为 复 ,并 可 以 在 带 有 “噪声 ”的 空间 数据 库 中 发 现任 意 形状 的 类 。 该 算法 利用 类 
的 密度 连通 性 可 以 快速 发 现任 意 形状 的 类 。 基 本 思想 是 : 对 于 一 个 类 中 的 每 个 对 象 ,在 其 
给 定 半径 的 领域 中 包含 的 对 象 不 能 少 于 某 一 给 定 的 最 小 数目 。DBSCAN 算法 不 进行 任何 
的 预 处 理 , 而 直接 对 整个 数据 集 进 行 聚 类 操作 。 当 数据 量 非常 大 时 ,必须 有 大 量 内 存 支持 ， 
1/O 消耗 也 非常 大 。 聚 类 过 程 的 大 部 分 时 间 用 在 区 域 查询 操作 上 。 

DBSCAN 算法 的 优点 是 能 够 发 现 空间 数据 库 中 任意 形状 的 密度 连通 集 ; 在 给 定 合适 
的 参数 条 件 下 ,能 很 好 地 处 理 噪声 点 ; 对 用 户 领 域 知 识 要 求 较 少 。 缺 点 是 对 数据 的 输入 顺 
序 不 太 敏 感 ; 适用 于 大 型 数据 库 , 但 DBSCAN 算法 要 求 事先 指定 领域 和 阅 值 ,具体 使 用 的 
参数 依赖 于 应 用 的 目的 。 

DBSCAN 中 的 几 个 定义 如 下 。 

E 领域 : 给 定 对 象 半径 为 已 内 的 区 域 称 为 该 对 象 的 也 领域 。 

核心 对 象 : 如 果 给 定 对 象 E 领域 内 的 样本 点 数 大 于 等 于 MinPis, 则 称 该 对 象 为 核心 
对 象 。 

直接 密度 可 达 : 对 于 样本 集合 也 ,如果 样本 点 g 在 户 的 也 领域 内 ,并 且 p 为 核心 对 象 ， 
那么 对 象 从 对 象 直接 密度 可 达 。 

密度 可 达 : 对 于 样本 集合 DD, 给 定 一 串 样 本 点 户 ,ps，….p,,p 二 p19 二 p,, 若 对 象 p; 
从 pi;-1 直 接 密度 可 达 , 则 对 象 q 从 对 象 密度 可 达 。 

密度 相连 : 对 于 样本 集合 D 中 的 任意 一 点 O, 如 果 存 在 对 象 p 到 对 象 。 密度 可 达 , 并 且 


对 象 4 到 对 象 o 密度 可 达 , 那 么 对 象 g 到 对 象 p 密度 相连 。 

可 以 发 现 ,密度 可 达 是 直接 密度 可 达 的 传递 闭 包 , 并 且 这 种 关系 是 非 对 称 的 。 密 度 相连 
是 对 称 关 系 。DBSCAN 的 目的 是 找到 密度 相连 对 象 的 最 大 集合 。 

【 例 7-5】 若 半 径 忆 =3,MizPis 王 3, 点 旋 的 下 领域 中 有 点 {mp, 略 ,po) ,点 妈 的 下 
领域 中 有 点 {fm,g,pyrma mz) ,点 g 的 领域 中 有 点 (gym) ,点 o 的 EE 领域 中 有 点 (fo,p,5) ,点 
s 的 玉 领 域 中 有 点 {0，,s,s1)。 

则 核心 对 象 有 p、m、o、s(g 不 是 核心 对 象 ,因为 它 对 应 的 下 领域 中 点 数量 等 于 2, 小 于 
MinPis 二 3); 点 m 从 点 p 直接 密度 可 达 , 因 为 m 在 p 的 EE 领域 内 ,并 且 户 为 核心 对 象 ; 点 








gq 从 点 p 密度 可 达 , 因 为 点 g 从 点 m 直接 密度 可 达 , 并 且 点 m 从 点 p 直接 密度 可 达 ; 点 g 到 
点 s 密度 相连 ,因为 点 g 从 点 p 密度 可 达 , 并 且 点 从 点 p 密度 可 达 。 

DBSCAN 算法 步骤 如 下 。 

输入 : 下 一 一 半径 , MinPis 一 一 给 定点 在 领域 内 成 为 核心 对 象 的 最 小 领域 点 数 ， 
也 一 一 集合 。 

输出 : 目标 类 簇 集合 。 

方法 : 


(1) 判断 输入 点 是 否 为 核心 对 象 。 
(2) 找 出 核心 对 象 的 EE 领域 中 的 所 有 直接 密度 可 达 点 。 
Until 所 有 输入 点 都 判断 完毕 


repeat 


针对 所 有 核心 对 象 的 EE 领域 所 有 直接 密度 可 达 点 找到 最 大 密度 相连 对 象 集 合 , 中 间 涉 
及 一 些 密度 可 达 对 象 的 合并 。 

Until 所 有 核心 对 象 的 下 领域 都 遍历 完毕 

2. 高 斯 混合 聚 类 方法 算法 

高 斯 混合 模型 GMM(Gaussian Mixture Model) 是 指 对 样本 的 概率 密度 分 布 进行 估计 ， 
而 估计 的 模型 是 几 个 高 斯 模型 加 权 之 和 (具体 数量 要 在 模型 训练 前 建立 好 ) 。 每 个 高 斯 模型 
就 代表 了 一 个 类 (一 个 Cluster) 。 对 样本 中 的 数据 分 别 在 几 个 高 斯 模型 上 投影 ,就 会 分 别 得 
到 在 各 类 上 的 概率 ,然后 可 以 选取 概率 最 大 的 类 所 为 判决 结果 。 

假设 整个 数据 集 服 从 高 斯 混合 分 布 , 待 聚 类 的 数据 点 看 成 是 分 布 的 采样 点 ,通过 采样 点 
利用 类 似 极 大 似 然 估计 的 方法 估计 高 斯 分 布 的 参数 。 求 出 参数 即 可 得 出 数据 点 对 分 类 的 素 
属 函数 。 混 合 高 斯 模型 的 定义 为 


上 


P(z)= DakP(z | hk) 


式 中 ,kk 为 模型 的 个 数 ; xk 为 第 k 个 高 斯 的 权重 ; PCz1k) 为 第 个 高 斯 的 概率 密度 函数 ,其 
均值 为 yk, 方 差 为 ok。 对 此 概率 密度 的 估计 就 是 求 xk、pk 和 ok 各 个 变量 。 当 求 出 表达 式 
后 , 求 和 式 的 各 项 的 结果 就 分 别 代 表 样 本 z 属于 各 个 类 的 概率 。 

在 做 参数 估计 时 , 常 采用 的 方法 是 最 大 似 然 。 最 大 似 然 法 是 使 样本 点 在 估计 的 概率 密 
度 函 数 上 的 概率 值 最 大 。 由 于 概率 值 一 般 都 很 小 ,NN 很 大 时 这 个 连 乘 的 结果 也 非常 小 , 容 
易 造 成 浮 点 数 下 游 , 所 以 通常 取 log, 将 目标 改写 成 : 


max >) logP(Czi) 
也 就 是 最 大 化 对 数 似 然 函数 ,完整 形式 则 为 


ee ( YapN Ce | nkok)) 

一 般 用 来 做 参数 估计 时 ,都 是 通过 对 待 求 变量 进行 求 导 来 求 极 值 。 在 上 式 中 ,log 函数 
中 又 有 求 和 ,如 用 求 导 的 方法 算 , 方 程 组 将 会 非常 复杂 。 可 以 采用 的 求解 方法 是 EM 算法 ， 
最 大 期 望 (EM) 算 法 是 在 概率 模型 中 寻找 参数 最 大 似 然 估计 或 者 最 大 后 验 估计 的 算法 ,其 
中 的 概率 模型 依赖 于 无 法 观测 的 隐藏 变量 。 最 大 期 望 经 常用 在 机 器 学 习 和 计算 机 视觉 的 数 
据 聚 类 领域 。 EM 算法 将 求解 分 为 两 步 : 第 一 步 是 假设 已 知 各 个 高 斯 模型 的 参数 (可 以 初 
始 化 一 个 ,或 者 基于 上 一 步 迭 代 结 果 ) ,去 估计 每 个 高 斯 模型 的 权 值 ; 第 二 步 是 基于 估计 的 
权 值 , 回 过 头 再 去 确定 高 斯 模型 的 参数 。 重 复 这 两 个 步骤 ,直到 波动 很 小 ,近似 达到 极 值 ( 注 
意 这 里 是 个 极 值 不 是 最 值 ,EM 算法 会 陷入 局 部 最 优 ) 。 

具体 表达 如 下 : 

(1) 对 于 第 i 个 样本 xz; 来 说 , 它 由 第 k 个 model 生成 的 概率 为 

吉 志 二 AE | pk ,ok) 
DN | pj,07) 


(2) 假设 高 斯 模型 的 参数 和 是 已 知 的 (由 上 一 步 迭 代 而 来 或 由 初始 值 决 定 ) ,得 到 每 个 
点 的 w(k) 后 ,可 以 考虑 : 对 样本 zx; 来 说 , 它 的 值 是 由 第 个 高 斯 模型 产生 的 。 换 句 话说 ， 
第 个 高 斯 模型 产生 了 w(k)zi (i 二 1,…,NN) 这 些 数 据 。 这 样 在 估计 第 k 个 高 斯 模型 的 参数 
时 ,用 wk)ziGi 二 1,…,NN) 这 些 数据 做 参数 估计 。 用 前 面 提 到 的 最 大 似 然 的 方法 去 估计 : 


Le 
ek = 2 wi(k) x; 
"Nas 





1 i. 
ok Na) (zi PR) (zi — pk) 








N 
Nk = Dow(k) 
i=1 


重复 上 述 两 步骤 直到 算法 收敛 。 

GMM 和 K-Means 其 实 是 十 分 相似 的 ,区 别 仅仅 在 于 GMM 引入 了 概率 。 

3. 基于 粒度 的 聚 类 算法 

聚 类 和 分 类 有 很 大 差异 , 聚 类 是 无 导师 的 学 习 , 而 分 类 是 有 导师 的 学 习 。 具 体 来 说 , 聚 
类 的 目的 是 发 现 样 本 点 之 间 最 本 质 的 抱团 性 质 的 一 种 客观 反映 。 分 类 需要 一 个 训练 样本 
集 ,由 领域 专家 指明 ,而 分 类 的 这 种 先 验 知识 却 常常 是 主观 的 。 从 信息 粒度 的 角度 来 看 ,就 
会 发 现 聚 类 和 分 类 的 相通 之 处 : 聚 类 操作 实际 上 是 在 一 个 统一 粒度 下 进行 计算 的 ; 分 类 操 
作 是 在 不 同 粒度 下 进行 计算 的 。 在 粒度 原理 下 , 聚 类 和 分 类 的 相通 使 得 很 多 分 类 的 方法 也 
可 以 用 在 聚 类 方法 中 。 虽 然 目前 粒度 计算 还 不 成 熟 ,基于 粒度 的 聚 类 方法 会 随 着 粒度 计算 
理论 本 身 的 不 断 完 善 和 发 展 , 必 将 在 大 数据 挖掘 中 的 聚 类 算法 及 其 相关 领域 得 到 广泛 应 用 。 

4. 量子 聚 类 算法 

在 现 有 的 聚 类 算法 中 , 聚 类 数目 一 般 需要 事先 指定 ,如 Kohenon 自 组 织 算法 、K-Means 


算法 和 模糊 K-Means 聚 类 算法 。 然 而 ,在 很 多 情况 下 类 别 数 是 不 可 知 的 ,而 且 绝 大 多 数 聚 
类 算法 的 结果 都 依赖 于 初 值 ,即使 类 别 数目 保持 不 变 , 聚 类 的 结果 也 可 能 相差 很 大 。 受 物理 
学 中 量子 机 理 和 特性 启发 ,可 以 用 量子 理论 解决 此 类 问题 。 量 子 聚 类 模型 (Quantum 
Clustering,QC) 基 于 相关 点 的 Pott 自 旋 和 统计 机 理 , 它 把 聚 类 问题 看 作 是 一 个 物理 系统 。 
QC 算法 不 需要 训练 样本 ,是 一 种 无 监督 学 习 的 聚 类 方法 。 借 助 势 能 函数 ,从 势能 能 量 点 的 
角度 来 确定 聚 类 中 心 , 所 以 它 同 样 是 基于 划分 的 。 许 多 算 例 表 明 ,对 于 传统 聚 类 算法 无 能 为 
力 的 几 种 聚 类 问题 ,QC 算法 都 得 到 了 比较 满意 的 结果 。 

5. 核 聚 类 算法 

核 聚 类 算法 增加 了 对 样本 特征 的 优化 过 程 , 通 过 引入 核 方法 把 输入 空间 的 数据 非 线性 
映射 到 高 维特 征 空间 ,增加 了 数据 点 的 线性 可 分 概率 , 即 扩大 了 数据 类 之 间 的 差异 ,在 高 维 
特征 空间 达到 线性 可 聚 的 目的 ,从 而 提高 聚 类 的 质量 。 核 聚 类 方法 是 普 适 的 ,并 在 性 能 上 优 
于 经 典 的 聚 类 算法 , 它 通过 非 线性 映射 能 够 较 好 地 分 辨 .提取 并 放大 有 用 的 特征 ,从 而 实现 
更 为 准确 的 聚 类 ; 同时 ,算法 的 收敛 速度 也 较 快 。 在 经 典 聚 类 算法 失效 的 情况 下 , 核 聚 类 算 
法 仍 能 够 得 到 正确 的 聚 类 。 

近年 来 对 核 聚 类 的 积极 研究 ,涌现 了 许多 基于 核 的 聚 类 算法 ,诸如 支持 向 量 聚 类 SVC、 
基于 核 的 模糊 聚 类 算法 .基于 模糊 核 聚 类 的 SVM 多 类 分 类 方法 、 硬 划分 的 核 聚 类 算法 、 基 
于 Gauss 核 的 SVDD 算法 等 。 这 些 核 聚 类 的 研究 为 非 线性 数据 的 有 效 处 理 带 来 了 突破 口 ， 
也 拓宽 了 本 领域 的 研究 范围 。 

6. 谱 聚 类 算法 

传统 的 聚 类 算法 (如 K-Means 算法 、EM 算法) 等 都 建立 在 凸 球形 的 样本 空间 上 ,但 当 
样本 空间 不 为 凸 时 ,算法 会 陷入 局 部 最 优 。 为 了 能 在 任意 形状 的 样本 空间 上 聚 类 , 且 收 敛 于 
全 局 最 优 解 ,提出 了 谱 聚 类 算法 (Spectral Clustering Algorithm) 。 该 算法 首先 根据 给 定 的 
样本 数据 集 定义 一 个 描述 成 对 数据 点 相似 度 的 亲 和 和 矩阵 ,并 计算 矩阵 的 特征 值 和 特征 向 量 ， 
然后 选择 合适 的 特征 向 量 聚 类 不 同 的 数据 点 。 谱 聚 类 算法 建立 在 图 论 中 的 谱 图 理论 基础 上 ， 
其 本 质 是 将 聚 类 问题 转化 为 图 的 最 优 划分 问题 ,是 一 种 点 对 聚 类 算法 ,最 初 用 于 计算 机 视觉 、 
VLSI 设计 等 领域 ,如 今 成 为 机 器 学 习 领 域 的 研究 热点 ,对 大 数据 聚 类 具有 很 好 的 应 用 前 景 。 





聚 类 方法 概要 . mp4(17. 0MB) K-Means 聚 类 的 算法 十 原理 十 层次 聚 类 的 算法 十 原理 十 特 
特点 十 案例 . mp4(22. 8MB) 点 十 案例 . mp4(17. 9MB) 





神经 网 络 聚 类 和 模糊 C 均值 方法 十 ”并行 聚 类 分 析 以 及 改进 的 并 “其 他 聚 类 算法 、 目 前 聚 类 分 析 研 
原理 十 特点 十 案例 . mp4(11.7MB) ， 行 聚 类 分 析 . mp4(27. 2MB) 究 的 主要 内 容 . mp4(17. 3MB) 


本 章 首先 介绍 了 各 种 聚 类 方法 ,包括 聚 类 的 基本 概念 、 类 的 度量 和 聚 类 过 程 。 之 后 介绍 
了 常见 的 聚 类 方法 的 原理 及 特点 ,加 以 实例 说 明 , 包 括 K-Means 聚 类 、 层 次 聚 类 、 神 经 网 络 
聚 类 、 模 糊 FCM 算法 ,并 对 处 理 大 数据 量 的 并 行 聚 类 分 析 及 基于 MapReduce 聚 类 分 析 进 
行 了 简 述 。 最 后 介绍 了 其 他 聚 类 算法 ,包括 基于 密度 的 聚 类 分 析 算 法 、 高 斯 混合 .基于 粒度 
的 量子 聚 类 算法 、 核 聚 类 、 谱 聚 类 等 。 


习 题 
1. 填空 题 


(1) 密度 的 基于 中 心 的 方法 可 以 将 点 分 类 为 : 
(2) DBSCAN 算法 的 优点 是 : 











(3) 层次 聚 类 分 为 和 。 
(4) 神经 网 络 聚 类 的 拓扑 结构 是 由 一 个 与 一 个 构成 。 
(5) 在 进行 聚 类 分 析 时 ,根据 变量 取 值 的 不 同 , 变 量 特性 的 测量 尺度 有 三 种 类 型 
和 
2. 选择 是 
(1) 如 果 不 考虑 外 部 信息 , 聚 类 结构 的 优良 性 度量 应 当 采 用 ( 
A. 均 方差 B. 方差 C. 中 位 数 D. 均值 
(2) 分 裂 的 层次 聚 类 是 ( ) 的 。 
A. 自 顶 向 下 B. 自 下 向 上 C. 自 左 向 右 D. 自 右 向 左 
(3) 需要 在 聚 类 分 析 中 保 序 的 聚 类 分 析 是 ( 外 
A. 两 步 聚 类 B. 有 序 聚 类 
C. 系统 聚 类 D.K-Means 聚 类 


(4) 聚 类 分 析 包括 ( ) 。 
A. 指标 之 间 的 聚 类 和 变量 之 间 的 聚 类 
B. 变量 之 间 的 聚 类 和 样品 之 间 的 聚 类 
C. 样品 之 间 的 聚 类 和 总 体 之 间 的 聚 类 
D. 指标 之 间 的 聚 类 和 总 体 之 间 的 聚 类 
(5) 在 聚 类 分 析 之 前 ,处 理 缺 失 值 的 有 效 迭 代 策略 是 ( ys 


A. 平均 值 插 补 法 B. 由 最 近 的 值 进行 分 配 
C. 用 期 望 最 大 化 算法 进行 插 补 D. 以 上 都 是 

(6) ( ) 对 离 群 值 最 敏感 。 
A. K 均值 聚 类 算法 B. K 中 位 数 聚 类 算法 


C. K 模型 聚 类 算法 D. K 中 心 点 聚 类 算法 





(7) 在 开 均 值 的 连续 迭代 中 ,对 簇 的 观测 值 的 分 配 没有 发 生 改 变 。 对 于 这 句 话 的 理解 


正确 的 是 (  )。 

A. 可 能 存在 B. 不 可 能 存在 

C. 不 好 说 D. 以 上 都 对 
(8) 执行 聚 类 时 ,最 少 要 有 ( ) 个 变量 或 属性 。 

A. 0 B. 1 A D3 
(9) 影响 聚 类 算法 结果 的 主要 因素 没有 ( 入 

A. 已 知 类 别 的 样本 质量 B. 分 类 准则 

C. 特征 选取 D. 模式 相似 性 测度 
(10) 聚 类 分 析 算 法 属于 (  ”)。 

A. 无 监督 分 类 B. 有 监督 分 类 

C. 统计 模式 识别 方法 D. 句法 模式 识别 方法 
3. 简 答 题 
(1) 簇 评估 的 主要 任务 是 什么 ? 


(2) 用 一 句 话 精 确 阐述 聚 类 的 概念 。 

(3) 判别 分 析 与 聚 类 分 析 有 什么 区 别 ? 
(4) 系统 聚 类 的 基本 思想 是 什么 ? 

(5) K 均值 法 与 系统 聚 类 法 有 什么 异同 ? 
(6) 简 述 K-Means 聚 类 的 思想 。 


关联 规则 


【内 容 摘要 】 关联 规则 是 用 于 发 现 隐藏 在 大 型 数据 集中 的 令 人 感 兴趣 的 联系 。 在 本 章 
中 ,介绍 了 关联 规则 的 一 些 基 本 概念 和 应 用 场景 ; 一 些 常 用 算法 的 实现 ,如 Apriori 算法 、 
FP-Growth 算法 ; 关联 规则 的 后 续 处 理 以 及 在 大 数据 时 代 的 应 用 。 

【学 习 目 标 】 通过 本 章 的 学 习 , 能 够 使 用 简单 的 统计 性 能 指标 ,理解 大 数据 中 的 关联 规 
则 算法 。 掌 握 常 用 的 Apriori 算法 、FP-Growth 算法 的 原理 ,了 解 不 同 算法 的 特点 ,并 能 够 
进行 简单 应 用 。 


8.1 关联 规则 概述 


关联 规则 最 初 的 动机 是 针对 购物 篮 分 析 问 题 。 假 设 分 店 经 理想 更 多 地 了 解 顾客 的 购物 
习惯 ,特别 是 想 知道 哪些 商品 顾客 可 能 会 在 一 次 购物 时 同时 购买 ? 为 回答 该 问题 ,可 以 对 商 
店 的 顾客 事件 一 一 零售 数量 进行 购物 篮 分 析 。 该 过 程 通过 发 现 顾客 放 和 人 购物 篮 中 的 不 同 商 
品 之 间 的 关联 ,分 析 顾 客 的 购物 习惯 。 这 种 关联 的 发 现 可 以 帮助 零售 商 了 解 哪 些 商 品 频繁 
地 被 顾客 同时 购买 ,从 而 帮助 他 们 设计 更 好 的 营销 策略 。 

1993 年 ,Agrawal Imielinski 和 Swami 首先 提出 关联 规则 概念 ,同时 给 出 了 相应 的 挖 
掘 算法 AIS, 但 是 性 能 较 差 。1994 年 ,他 们 建立 了 项 目 集 格 空间 理论 ,并 依据 上 述 两 个 定 
理 , 提 出 了 著名 的 Apriori 算法 ,至 今 Apriori 仍然 作为 关联 规则 挖掘 的 经 典 算法 被 广泛 讨 
论 ,以 后 诸多 的 研究 人 员 对 关联 规则 的 挖掘 问题 进行 了 大 量 的 研究 ,并 广泛 应 用 于 交叉 销 
售 .邮购 目录 的 设计 、 商 品 摆 放 流失 客户 分 析 、 基 于 购买 模式 进行 客户 区 隔 等 领域 。 


8.1.1 关联 规则 的 基本 概念 


关联 规则 是 知识 发 现 中 的 一 个 重要 问题 ,人 们 通过 发 现 关 联 的 规则 ,可 以 从 一 件 事情 的 
发 生来 推测 另外 一 件 事情 的 发 生 , 从 而 更 好 地 了 解 和 掌握 事务 的 发 展 规律 ,这 就 是 寻找 关联 
规则 的 基本 意义 。 在 不 同 的 资料 和 程序 中 ,关联 规则 的 内 容 表 述 或 许 不 同 ,但 基本 原理 是 一 
致 的 。 下 面 介绍 关联 规则 中 几 个 重要 的 概念 。 

1. 事务 和 项 集 

在 采集 到 的 数据 中 ,把 一 个 样本 称 为 一 个 事务 ,每 个 事务 由 多 个 属性 来 确定 ,这 个 属性 
称 为 项 ,包含 0 个 或 多 个 项 的 集合 称 为 项 集 。 根 据 项 集中 包含 的 数量 ,项 集 可 以 是 1- 项 集 、 
2- 项 集 或 者 k- 项 集 。 

2. 支持 度 与 置信 度 

支持 度 表 示 项 集 {X,Y} 在 总 项 集 工 里 出 现 的 概率 。 





POXSYY 了 (和 UY waum(X UY) 
Puy P(D num (1) 


式 中 ,num() 表 示 求 事务 集 里 特定 项 集 出现 的 次 数 ,比如 ,num(7T) 表 示 总 事务 集 的 个 数 ， 
num(XUY) 表 示 含 有 {X,Y 了} 的 事务 的 个 数 。 

满足 最 小 支持 度 阅 值 的 所 有 项 集 称 为 频繁 项 集 ,车 k- 项 集 满足 最 小 支持 度 阐 值 , 即 称 
为 频繁 k- 项 集 。 

置信 度 表示 在 先决 条 件 X 发 生 的 情况 下 ,由 关联 规则 XY 推出 Y 的 概率 , 即 在 含有 
X 的 项 集中 含有 Y 的 可 能 性 。 


Co Fidence(X 一 Y) P(Y | X) 











Support(X 一 了 ) (8-1) 





PO P(XUY 
P(X) PA) 


支持 度 和 置信 度 是 描述 关联 规则 的 两 个 重要 概念 。 前 者 用 于 衡量 关联 规则 在 整个 数据 
集中 的 统计 重要 性 。 后 者 用 于 衡量 关联 规则 的 可 信 程度 。 

3. 关联 规则 的 定义 

关联 规则 (Association Rule) 是 形 如 X-~Y 的 蕴含 表 达 式 ,其 中 X 和 YY 是 不 相交 的 项 
集 。X 称 为 规则 的 左 部 或 规则 的 前 提 ( 简 记 为 LHS),Y 称 为 规则 的 右 部 或 规则 的 结论 ( 简 
记 为 RHS)。 

经 过 上 述 解说 可 发 现 ,关联 规则 反映 一 个 事物 与 其 他 事物 之 间 的 关联 性 ,更 准确 地 说 是 
通过 量化 的 数字 描述 物品 甲 的 出 现 对 物品 乙 的 出 现 有 多 大 的 影响 。 它 的 模式 属于 描述 型 模 
式 , 其 算法 属于 无 监督 学 习 算 法 。 

【 例 8-1】 表 8-1 选取 的 是 顾客 购买 记录 的 一 个 数据 库 , 请 根据 该 数据 库 , 分 别 指出 上 
述 提 到 的 各 个 基本 概念 。 








(8-2) 


表 8-1 顾客 购买 记录 数据 库 




















TD 网 球拍 网 球 运动 鞋 羽毛 球 
1 1 1 0 

2 1 1 0 0 

3 1 0 0 0 

4 1 0 1 0 

5 0 1 1 1 

6 1 0 0 

















表 8-1 所 列 的 数据 库 D 中 共 包 含 6 个 事务 。 项 集 [一 { 网 球拍 ,网 球 , 运 动 奎 ,羽毛 球 } 。 
考虑 关联 规则 (频繁 二 项 集 ) : 网 球拍 与 网 球 , 事 务 1.2、3、4、6 包含 网 球拍 ,事务 1.2、6 
同时 包含 网 球拍 和 网 球 ,zzm(CXUY) 王 3,nzxxz(T) 一 6, 支持 度 计 算 如 下 : 


POX UYY num(XUY) 3 
P(D num (了 ) 6 











Support (X—Y) 0.5 
事务 X 一 5, 置 信 度 计算 如 下 : 
PXUYY 3 


Confidence(X 一 了 ) 一 = 二 0.6 
8.1.2 关联 规则 的 发 现 步骤 


关联 规则 挖掘 过 程 主要 包含 两 个 阶段 : 第 一 阶段 必须 先 从 资料 集合 中 找 出 所 有 的 高 频 


项 目 组 ; 第 二 阶段 再 从 这 些 高 频 项 目 组 中 产生 关联 规则 。 

关联 规则 挖掘 的 第 一 阶段 必须 从 原始 资料 集合 中 找 出 所 有 高 频 项 目 组 。 高 频 的 意思 是 
指 某 一 项 目 组 出 现 的 频率 相对 于 所 有 记录 而 言 , 必 须 达 到 某 一 水 平 。 一 项 目 组 出 现 的 频率 
称 为 支持 度 , 以 一 个 包含 X 与 了 两 个 项 目的 2- 项 集 为 例 ,我 们 可 以 经 由 公式 (8-1) 求 得 包含 
{X,Y} 项 目 组 的 支持 度 , 若 支持 度 大 于 或 等 于 所 设 定 的 最 小 支持 度 门槛 值 , 则 {X,Y)} 称 为 高 
频 项 目 组 。 一 个 满足 最 小 支持 度 的 -项 集 , 则 称 为 高 频 k- 项 集 , 一 般 表 示 为 Largek 或 
Frequent k。 算 法 从 Largek 的 项 目 组 中 再 产生 Large k 十 1, 直 到 无 法 再 找到 更 长 的 高 频 项 
目 组 为 止 。 

关联 规则 挖掘 的 第 二 阶段 是 要 产生 关联 规则 。 从 高 频 项 目 组 产生 关联 规则 ,是 利用 前 
一 步骤 的 高 频 k- 项 目 组 来 产生 规则 ,在 最 小 置信 和 度 的 条 件 门 槛 下 , 若 一 规则 所 求 得 的 置信 
度 满足 最 小 置信 和 度 , 称 此 规则 为 关联 规则 。 例 如 ,经 由 高 频 k- 项 目 组 1{X,Y} 所 产生 的 规则 
XY, 其 置信 度 可 经 由 公式 (8-2) 求 得 , 若 置 信和 度 大 于 或 等 于 最 小 置信 和 度 , 则 称 AB 为 关联 
规则 。 

【 例 8-2】 表 8-2 给 出 一 个 称 作 购物 篮 事 务 的 沃尔玛 案例 。 表 中 每 一 行 对 应 一 个 事务 ， 
包含 一 个 唯一 标识 TID 和 给 定 顾客 购买 的 商品 的 集合 。 请 使 用 关联 规则 挖掘 技术 对 交易 
资料 库 中 的 记录 进行 资料 挖掘 。 假 设 最 小 支持 度 min_support=0. 4 且 最 小 置信 和 度 min_ 


confidence 一 0. 67。 


表 8-2 购物 篮 事务 的 例子 


TID 项 集 

{ 面 包 , 牛 奶 } 

{面包 ,尿布 ,啤酒 ,鸡蛋 } 
{牛奶 ,尿布 ,啤酒 ,可 乐 } 
{面包 ,牛奶 ,尿布 ,啤酒 } 
{面包 ,牛奶 ,尿布 ,可 乐 } 
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根据 关联 规则 的 挖掘 步骤 ,符合 该 超市 需求 的 关联 规则 必须 同时 满足 两 个 条 件 : 支持 
度 大 于 或 等 于 所 设 定 的 最 小 支持 度 ,置信 和 度 大 于 或 等 于 最 小 置信 和 度 。 若 经 过 挖掘 过 程 所 找 
到 的 关联 规则 {尿布 ,啤酒 } 满 足 上 述 两 个 条 件 . 将 可 接受 {尿布 .啤酒 } 的 关联 规则 。 用 公式 
可 以 描述 为 Support( 尿 布 ,啤酒 ) 二 =0. 4 且 Confidence( 尿 布 ,啤酒 ) 记 = 二 0. 67。 

其 中 ,Support( 尿 布 ,啤酒 ) 二 二 0.4 于 此 应 用 范例 中 的 意义 为 : 在 所 有 的 交易 记录 资料 
中 ,至 少 有 0. 4 的 交易 呈现 尿布 与 啤酒 这 两 项 商品 被 同时 购买 的 交易 行为 。Confidence( 尿 
布 ,啤酒 ) 二 二 0.67 于 此 应 用 范例 中 的 意义 为 : 在 所 有 包含 尿布 的 交易 记录 资料 中 ,至 少 有 
0. 67 的 交易 会 同时 购买 啤酒 。 因 此 ,今后 若 有 某 消 费 者 出 现 购买 尿布 的 行为 ,超市 将 可 推 
荐 该 消费 者 同时 购买 啤酒 。 这 个 商品 推荐 的 行为 就 是 根据 {尿布 ,啤酒 } 关 联 规则 ,因为 就 该 
超市 过 去 的 交易 记录 而 言 , 支 持 了 “大 部 分 购买 尿布 的 交易 ,会 同时 购买 啤酒 ”的 消费 行为 。 

从 上 面 的 介绍 还 可 以 看 出 ,关联 规则 挖掘 通常 比较 适用 与 记录 中 的 指标 取 离散 值 的 情 
况 。 如 果 原 始 数据 库 中 的 指标 值 是 取 连 续 的 数据 , 则 在 关联 规则 挖掘 之 前 应 该 进行 适当 的 
数据 离散 化 (实际 上 就 是 将 某 个 区 间 的 值 对 应 于 某 个 值 ) ,数据 的 离散 化 是 数据 挖掘 前 的 重 
要 环节 ,离散 化 的 过 程 是 否 合理 将 直接 影响 关联 规则 的 挖掘 结果 。 











8.1.3 关联 规则 挖掘 算法 分 类 


关联 规则 反映 一 个 事物 与 其 他 事物 之 间 的 关联 性 ,关联 规则 分 析 则 是 从 事务 数据 库 、 关 
系数 据 库 和 其 他 信息 存储 中 的 大 量 数据 的 项 集 之 间 发 现 有 趣 的 频繁 出 现 的 模式 .关联 和 相 
关 性 。 在 关联 规则 的 分 析 中 必 不 可 少 也 会 用 到 一 些 算法 ,根据 不 同 的 分 类 标准 ,将 其 作 如 下 

1) 基于 规则 中 处 理 变量 的 类 别 

关联 规则 处 理 的 变量 可 以 分 为 布尔 型 和 数值 型 。 布 尔 型 关联 规则 处 理 的 值 都 是 离散 的 
种 类 化 的 , 它 显 示 了 这 些 变量 之 间 的 关系 ; 而 数值 型 关联 规则 可 以 和 多 维 关联 或 多 层 关联 
规则 结合 起 来 ,对 数值 型 字段 进行 处 理 , 将 其 进行 动态 分 割 , 或 者 直接 对 原始 数据 进行 处 理 ， 
当然 数值 型 关联 规则 中 也 可 以 包含 种 类 变量 。 例 如 ,性 别 =" 女 "= 二 职业 二 "秘书 " ,是 布尔 
型 关联 规则 ; 性 别 =" 女 "一 二 avg( 收 入 ) 王 2300, 涉 及 的 收入 是 数值 类 型 ,所 以 是 一 个 数值 
型 关联 规则 。 

2) 基于 规则 中 数据 的 抽象 层次 

基于 规则 中 数据 的 抽象 层次 ,可 以 分 为 单 层 关联 规则 和 多 层 关 联 规则 。 在 单 层 的 关联 
规则 中 ,所 有 的 变量 都 没有 考虑 到 现实 的 数据 是 具有 多 个 不 同 的 层次 的 ; 而 在 多 层 的 关联 
规则 中 ,对 数据 的 多 层 性 已 经 进行 了 充分 的 考虑 。 例 如 ,IBM 台式 机 = 二 Sony 打印 机 ,是 一 
个 细节 数据 上 的 单 层 关联 规则 ; 台式 机 三 二 Sony 打印 机 ,是 一 个 较 高 层次 和 细节 层次 之 间 
的 多 层 关联 规则 。 

3) 基于 规则 中 涉及 数据 的 维 数 

关联 规则 中 的 数据 ,可 以 分 为 单 维 的 和 多 维 的 。 在 单 维 的 关联 规则 中 ,只 涉及 数据 的 一 
个 维 , 如 用 户 购买 的 物品 ; 而 在 多 维 的 关联 规则 中 ,要 处 理 的 数据 将 会 涉及 多 个 维 。 换 句 话 
说 , 单 维 关联 规则 是 处 理 单个 属性 中 的 一 些 关 系 ; 多 维 关联 规则 是 处 理 各 个 属性 之 间 的 某 些 
关系 。 例 如 ,啤酒 三 二 尿布 ,这 条 规则 只 涉及 用 户 购买 的 物品 ; 性 别 =" 女 "= 二 职业 三 
"秘书 ", 这 条 规则 涉及 两 个 字段 的 信息 ,是 两 个 维 上 的 一 条 关联 规则 。 

在 关联 规则 发 展 基础 上 ,演变 出 很 多 相关 的 算法 , 表 8-3 所 示 为 常用 关联 规则 算法 及 算 
法 描述 ,具体 内 容 详 见 8.2 节 和 8. 3 节 。 

表 8-3 常用 关联 规则 算法 


算法 名 称 算法 描述 

一 种 最 有 影响 的 挖掘 布尔 关联 规则 频繁 项 集 的 算法 ,其 核心 思想 是 通过 连接 产生 候选 
Apriori 算法 “| 项 及 其 支持 度 , 然 后 通过 剪 枝 生成 频繁 项 集 。 该 关联 规则 在 分 类 上 属于 单 维 、 单 层 \ 布 
尔 关联 规则 

针对 Apriori 算 法 固有 的 多 次 扫描 事务 数据 集 的 缺陷 ,提出 不 产生 候选 频繁 项 集 的 方 

















FP-Growth | 法 。 采 用 分 而 治之 的 策略 ,对 不 同 长 度 的 规则 都 有 很 好 的 适应 性 

Eu 着 并 。 | 一 种 深度 优先 筑 法 ,采用 下 在 数据 表示 形式 ,在 概念 理论 的 基础 上 利用 基于 前 级 的 等 
价 关系 将 搜索 空间 划分 为 较 小 的 子 空间 

灰色 关联 潜 | 分 析 和 确定 各 因素 之 癌 的 影响 程度 或 若干 个 了 因素 (于 序列 ) 对 主因 素 (全 序列 ) 的 贡献 





度 而 进行 的 一 种 分 析 方 法 





8.1.4 应 用 场景 及 特点 


关联 规则 作为 数据 挖掘 技术 的 一 个 重要 分 支 , 受 到 当今 人 工 智能 与 数据 库 界 的 广泛 关 
注 。 由 于 其 巨大 的 潜在 利用 价值 ,发 展 速度 十 分 迅猛 ,从 早期 的 商业 领域 发 展 到 当前 的 电子 
商务 领域 ,关联 规则 挖掘 技术 已 经 广泛 应 用 于 诸多 领域 ,但 每 个 领域 都 有 其 特定 的 应 用 
背景 。 

1. 商业 零售 业 中 的 应 用 

商业 零售 业 是 数据 挖掘 应 用 较为 活路 的 一 个 领域 。 对 销售 商 来 说 ,了 解 客 户 的 购买 习 
惯 和 趋势 是 非常 重要 的 。 通 过 关联 规则 的 挖掘 ,分 析 客 户 对 商品 的 需求 情况 ,发 现 客户 潜在 
的 需求 特征 ,有 目的 地 开展 广告 和 营销 业务 ,调整 商品 价格 和 货架 设计 ,以 刺激 商品 的 销售 ， 
扩大 销售 范围 和 销售 规模 ,从 而 增加 销售 量 。 

2. 金融 业 中 的 应 用 

金融 领域 的 数据 相对 比较 完整 ,可靠 和 高 质量 ,这 有 利于 系统 化 的 数据 分 析 和 数据 挖 
据 。 数 据 挖掘 在 这 一 领域 的 应 用 较为 成 熟 , 也 取得 了 较 好 的 预期 效果 和 经 济 效 益 。 通 过 分 
析 人 金融 市 场 波 动因 素 ,建立 预测 模型 ,进行 投资 分 析 和 预测 ,提高 对 市 场 波 动 的 适应 能 力 ,为 
投资 决策 提供 科学 的 依据 。 例 如 ,贷款 偿付 预测 和 客户 信用 政策 分 析 对 银行 业务 是 相当 重 
要 的 。 有 很 多 因素 会 对 贷款 偿还 效能 和 客户 信用 等 级 计算 产生 不 同 程度 的 影响 。 数 据 挖掘 
的 方法 ,如 特征 选择 和 属性 相关 性 计算 ,有 助 于 识别 重要 因素 ,剔除 非 相 关 因 素 。 

3. 医学 领域 的 应 用 

医药 管理 的 信息 化 为 医务 人 员 收 集 了 大 量 的 数据 ,通过 这 些 数 据 的 挖掘 ,分 析 病 历 和 病 
人 的 行为 特征 ,以 便 用 于 处 方 的 管理 ,对 疑难 病症 的 攻关 和 研究 ,安排 治疗 方案 ,判断 处 方 的 
有 效 性 ,建立 各 种 医疗 数据 模型 ,发 现 用 药 规律 和 药品 的 疗效 ,推动 医药 水 平 的 发 展 。 

4. 其 他 领域 的 应 用 

网 络 和 人 侵 检 测 ,通过 对 网 络 资源 的 访问 记录 , 找 出 一 些 不 正常 的 模式 ,对 异常 数据 进行 
分 析 , 可 有 效 地 防止 非法 入 侵 , 提 高 网 络 的 安全 性 。 基 于 数据 挖掘 的 入侵 检测 系统 具有 智能 
性 好 、 自 动 化 程度 高 检测 效率 高 、 自 适应 能 力 强 等 优势 。 

关联 规则 挖掘 技术 还 可 以 应 用 于 保险 业 ,通过 对 业务 数据 和 客户 数据 的 分 析 , 有 利于 保 
险 公司 开展 业务 ,如 财务 预算 ,市场 分 析 ` 风 险 评估 和 预测 等 ,有 效 地 提高 企业 防范 和 抗 经 营 
风险 的 能 力 。 

关联 规则 挖掘 已 经 获得 巨大 的 发 展 , 但 是 远 非 完 美 ,已 经 出 现 的 和 即将 出 现 的 很 多 新 的 
问题 正在 给 关联 规则 挖掘 带 来 诸多 新 的 挑战 。 

(1) 在 处 理 海量 数据 时 ,如 何 提高 算法 效率 问题 是 关联 规则 今后 研究 的 重点 。 通 常 效 
率 指 的 是 运行 时 间 和 结果 的 可 行 性 、 新 奇 性 . 现 有 的 算法 在 两 者 之 间 很 难 达到 平衡 ,给 用 户 
带 来 相当 的 不 便 。 

(2) 关于 迅速 更 新 数据 的 挖掘 算法 的 进一步 研究 ,知识 的 维护 和 更 新 ,新 的 技术 积累 可 
能 导致 以 前 发 现 的 知识 失败 ,这些 知 识 需要 动态 维护 和 及 时 更 新 。 

(3) 在 挖掘 的 过 程 中 ,提供 一 种 与 用 户 进行 交互 的 方法 ,将 用 户 的 领域 知识 结合 在 其 
中 ,目前 的 许多 做 法 都 是 将 规则 按 某 种 尺度 (如 支持 度 、. 置 信 度 等 ) 进 行 排序 ,再 提供 给 用 户 
浏览 ,还 有 以 图 形 的 方式 对 规则 进行 可 视 化 后 提交 给 用 户 的 方法 ,由 于 大 型 数据 库 中 存在 的 











规则 数量 往往 非常 大 ,因此 上 述 方法 都 存在 一 定 的 局 限 性 。 如 何 对 挖掘 好 的 规则 进行 一 定 
的 后 期 处 理 ,再 提交 给 用 户 是 一 个 急需 解决 的 问题 。 

(4) 分 布 式 系统 已 经 成 为 一 个 主流 计算 方向 ,数据 的 分 区 通常 是 不 对 称 的 。 分 区 间 的 
联系 很 少 ,经 常 是 不 可 靠 的 ,或 许 有 不 同 的 吞吐 量 和 延迟 。 因 此 ,基于 分 布 式 关 联 规则 的 知 
识 发 现 算法 将 会 成 为 一 个 主要 的 形成 .维护 和 分 析 分 布 式 系统 的 工具 ,但 如 何 克 服 网 络 间 的 
通信 障碍、 通信 效率 等 是 一 个 吸 待 解决 的 问题 。 

(5) 关联 规则 与 其 他 算法 的 融合 及 比较 。 在 分 类 和 关联 规则 挖掘 之 间 有 一 些 基 本 的 差 
别 , 关 联 规则 不 涉及 预测 ,也 不 用 提供 防止 低 于 或 超过 给 定 支持 度 的 机 制 。 然 而 ,如 何 将 关 
联 规则 与 其 他 算法 进行 融合 ,扬长 避 短 ,解决 传统 算法 无 法 解决 的 实践 问题 ,也 有 待 研究 与 
探讨 。 

(6) 如 何 有 效 地 利用 其 他 学 科 中 的 现 有 成 果 , 以 促进 对 关联 规则 挖掘 的 研究 是 一 个 需 
要 进一步 解决 的 问题 。 特 别 是 人 工 智 能 与 统计 学 中 的 相关 技术 ,如 模糊 理论 .遗传 算法 及 神 
经 网 络 等 。 


8.1.5 关联 规则 质量 评价 


判断 一 条 关联 规则 是 否 有 趣 可 以 有 两 类 评价 方法 : 客观 评价 方法 和 主观 评价 方法 。 

1. 客观 评价 方法 

客观 评价 方法 是 指 评价 指标 用 数量 来 表示 ,通过 对 数据 进行 量化 处 理 、 检 验 和 分 析 , 从 
而 获得 有 意义 的 结论 和 规则 。 

1) 相关 度 

相关 度 (correlativity) 是 置信 度 与 期 望 置信 和 度 的 比值 ,其 表达 式 被 定义 为 
P(B|A) confidence(A 一 已 ) 

P(B) support (B) 

其 中 ,PC(B) 为 规则 AB 的 期 望 置 信和 度 ,表示 D 中 事务 包含 B 的 百分比 。 规 则 AB 的 相关 度 
描述 了 项 目 集 A 对 项 目 集 B 的 影响 力 的 大 小 。 





correlativity(A — B) (8-3) 











2) 影响 度 
影响 度 (effect) 被 定义 为 
eet = me A 
其 思想 是 引入 了 负 项 以 加 强 知识 的 表示 手段 ,全 面 考虑 各 种 可 能 的 反面 示例 的 影响 , 完 
善 原 有 的 相关 度 的 评价 。 
3) 时 效 度 


时 效 度 (time) 的 定义 是 根据 信息 炉 的 统计 意义 ,事件 的 时 效 性 随时 间 间 隔 的 增 大 而 呈 
指数 下 降 。 时 效 支持 度 和 时 效 置 信和 度 统称 为 关联 规则 AB 的 时 效 度 。 当 规则 的 时 效 支持 度 
和 时 效 置信 度 同 时 满足 给 定 的 阔 值 时 , 称 为 强 时 效 规则 。 符 合 强 时 效 规则 的 知识 我 们 认为 
它 是 使 人 感 兴趣 的 。 

4) 新 颖 度 

新 颖 度 (novel) 是 相对 于 原 有 的 知识 而 言 的 ,新 颖 程度 分 别 表现 在 发 现 的 规则 与 基础 知 
识 库 (主要 存放 专家 输入 的 领域 知识 和 用 户 已 知 的 一 些 规则 ) 中 的 规则 的 各 项 差异 程度 上 ， 


分 别 表现 在 前 件 各 项 的 差异 和 后 件 各 项 的 差异 上 (分 别 从 语言 变量 和 同一 语言 变量 的 不 同 
语言 值 的 角度 ) ,在 实际 应 用 中 ,我 们 认定 新 颖 度 高 的 关联 规则 是 使 人 感 兴趣 的 。 

2. 主观 评价 方法 

主观 评价 方法 是 指 评价 指标 用 意义 、 经 验 和 描述 等 进行 表示 ,再 经 处 理 、 检 验 和 分 析 , 从 
而 获得 有 意义 的 结论 和 规则 。 

1) 实用 度 

实用 度 (Cutility) 反 映 了 潜在 有 用 性 , 它 涉及 用 户 和 领域 专家 参与 规则 评价 的 问题 。 在 
所 挖掘 的 规则 中 ,前 件 或 后 件 中 的 某 些 属性 可 能 对 分 析 事 务 之 间 的 关系 和 将 来 的 决策 具有 
重要 的 作用 ,其 一 般 表 现在 两 个 方面 : 它们 在 领域 中 的 位 置 比较 重要 ,对 其 他 的 属性 起 着 
很 大 影响 作用 ,或 者 规则 本 身体 现 了 领域 中 重要 的 一 种 关系 ,因此 引起 了 发 现 者 的 关注 。 
@ 它 们 反映 了 用 户 进行 知识 挖掘 时 的 兴趣 取向 ,体现 了 属性 顺序 具有 一 定 的 时 效 性 ,其 确定 
与 现实 的 情况 紧密 相连 。 关 联 规则 实用 度 越 高 , 则 越 感 兴趣 。 

2) 简洁 度 

简洁 度 (concision) 是 用 来 衡量 关联 规则 的 最 终 可 理解 程度 的 指标 。 它 表现 在 两 个 方 
面 : 中 在 规则 所 包含 的 项 的 个 数 上 ,如 果 规 则 项 数 很 多 , 则 不 利于 对 规则 的 理解 。 因 此 , 规 
则 的 项 数 是 一 个 衡量 规则 简洁 度 的 逆向 指标 , 即 规则 的 项 数 越 多 ,规则 的 简洁 度 越 差 。@ 在 
规则 所 包含 的 抽象 层次 上 ,规则 包含 的 项 的 抽象 层次 越 高 , 它 对 数据 的 解释 力 就 越 强 ,因此 
也 越 容易 理解 。 关 联 规则 简洁 度 越 高 , 则 越 感 兴趣 。 





8.2 Apriori 算法 


8.2.1 Apriori 算法 的 基本 原理 


R. Agrawal 等 人 在 提出 关联 规则 概念 后 ,给 出 了 关联 规则 挖掘 算法 AIS 和 SETM。 这 
些 算法 的 缺点 是 产生 许多 不 必要 的 候选 项 集 ,特别 是 小 候选 项 ,而 且 计算 量 过 大 。1994 年 
R. Agrawal 等 人 提出 了 最 有 影响 的 挖掘 布尔 型 关联 规则 频繁 项 目 集 的 Apriori 算法 。 

Apriori 算法 是 一 种 宽度 优先 的 多 趟 扫描 算法 ,其 基本 思想 是 : 第 一 次 扫描 数据 库 , 计 
算出 所 有 1- 项 集 的 支持 计数 ,然后 产生 频繁 1- 项 集 ( 所 有 支持 度 和 可 信和 度 大 于 最 小 支持 度 
和 最 小 可 信和 度 的 1- 项 集 )L,。 重 新 扫描 数据 库 , 由 工 ; 产生 所 有 的 候选 2- 项 集 C; ,进而 得 到 
频繁 2- 项 集 L: , 即 第 k 次 扫描 数据 库 产 生 频 繁 k- 项 集 Le( 首 先 通过 Le-: 中 的 项 目 集 连 接 
操作 生成 候选 k- 项 集 Ce, 再 利用 剪 枝 操作 删除 Ce 中 的 小 于 最 小 支持 度 的 项 集 , 从 而 得 到 
L,) ,直到 无 频繁 项 集 产生 为 止 , 最 后 的 频繁 项 集 的 集合 为 UL,。 剪 枝 操 作 的 目的 主要 是 
尽 可 能 不 生成 和 不 计算 那些 不 可 能 是 频繁 项 集 的 候选 项 集 ,以 生成 较 小 的 修 选项 集 的 
集合 。 


8.2.2 Apriori 算法 步 又 


Apriori 算法 是 第 一 个 关联 规则 挖掘 算法 , 它 开 创 性 地 使 用 基于 支持 度 的 剪 枝 技术 , 系 
统 地 控制 候选 项 集 指数 增长 。 用 到 的 原理 是 先 验 原理 , 即 如 果 一 个 项 集 是 频繁 的 , 则 它 的 所 
有 子 集 也 一 定 是 频繁 的 。Apriori 算法 的 两 个 主要 操作 是 连接 和 剪 枝 。 





1) 连接 操作 

为 了 找到 工 ,通过 工 ,_1 与 自己 连接 产生 候选 k- 项 集 的 集合 。 该 候选 项 集 的 集合 记 作 
Cs。 假设 4 和 1s 是 Li 中 的 项 集 。 记 号 57 门 表示 4; 中 的 第 j 项 (例如 ,L141[k 一 1] 表 示 4 的 
倒数 第 2 项 )。 为 了 描述 方便 ,一 般 假设 交易 数据 库 中 各 交易 记录 中 的 各 项 均 已 按 字典 排 
序 。 执 行 连接 Le * Li-1 ,其 中 Le 的 元 素 是 可 以 连接 的 ,如 果 它 们 前 4 一 2 个 项 相同 , 即 
L4-1 的 元 素 2 和 1 是 可 连接 的 ,如 果 [1]=4s[1],4[2]==ls[2],4[3]==12[3],…,L[k 一 
2] 二 lz[k 一 2], 且 4[k 一 1 过 ls[k 一 1]。 条 件 hi[k 一 1] 过 ls[k 一 1] 是 简单 地 保证 不 产生 重 
复 , 连 接 l; 和 ls 产生 的 结果 项 集 是 {4[1],L[2],L[3],… ,lk 一 2],L[k 一 1]}。 

2) 前 枝 操 作 

Ce 是 ZL 的 超 集 ,其 中 的 元 素 ( 项 集 ) 未 必 都 是 频繁 项 集 ,但 所 有 的 频繁 k- 项 集 一 定 都 
在 Ce 中 , 即 LeSCs。 通 过 对 数据 库 的 一 遍 扫 描 , 可 以 确定 Cs 中 各 项 集 的 支持 计数 ,并 由 此 
获得 Li* 即 所 有 支持 计数 大 于 最 小 支持 度 的 候选 项 集 共 同 组 成 Li 。 因 为 C 可 能 很 大 ,这 样 
涉及 的 计算 量 会 很 大 ,为 了 压缩 Ce ,可 以 使 用 Apriori 性 质 , 即 任何 非 频繁 项 目 集 的 超 集 一 定 
也 是 非 频繁 项 目 集 , 所 以 任何 频繁 的 (一 1)- 项 集 都 是 频繁 -项 集 的 子 集 。 因 此 ,如 果 一 个 候 
选 有 -项 集 的 子 集 不 在 Le-: 中 , 则 该 候选 项 集 也 不 可 能 是 频繁 的 ,从 而 可 以 从 Ce 中 删除 。 


8.2.3 Apriori 算法 的 频繁 项 集 产 生 实例 


Apriori 关联 规则 算法 是 借助 arules 中 的 一 系列 函数 来 实现 的 ,而 另 一 个 包 arulesViz 
则 可 以 实现 关联 规则 的 可 视 化 ,关联 规则 分 析 主 要 包括 对 频繁 数据 集 的 探索 、 建 立 关 联 规则 
和 关联 规则 查看 和 分 析 。 本 小 节 主 要 通过 Apriori 关联 规则 中 Apriori 方法 和 Eclat 方法 实 
现 为 例 。 

1. apriori() 函数 简介 

















函数 语法 如 下 : 

apriori (data,parameter = NULL, appearance = NULL, control = NULL) 
函数 的 有 关 参 数 如 下 。 

data 关联 分 析 的 数据 集 。 

Parameter 对 支持 度 (support) 、 和 置信 度 (confidence) 每 个 项 集 所 含 项 数 的 最 大 值 


(maxlen) ,最 小 值 (minlen) ,以 及 输出 结果 (target) 等 重要 参数 进行 设置 。 各 参数 默认 值 
support=0. 1 ,confidence=0. 8, maxlen=10, minlen=1, target= "rules"。 

appearance 限制 先决 条 件 X(lhs) 和 关联 结果 Y(rhs) 中 具体 包含 的 项 。 如 设置 
1lhs 一 beer, 将 仅 输出 lhs 中 含有 “啤酒 ”这 一 项 的 关联 规则 。 在 默认 情况 下 ,所 有 项 都 将 无 限 
制 出 现 。 


control 











用 来 控制 函数 性 能 .如 可 以 设 定 对 项 集 进行 升序 (sort=D 还 是 降序 (sort 一 
一 1) 排 序 , 是 否 向 使 用 者 报告 进程 (verbose 二 TRUE/FALSE) 等 。 





2. 参考 例 程 
【 例 8-3】 在 RR 语言 环境 中 ,对 Groceries 数据 集 进行 Apriori 算法 的 频繁 项 集 实现 。 
第 一 步 : 数据 源 。 


arules 软件 包 中 的 Groceries 数据 集 是 某 一 食品 杂货 店 一 个 月 的 真实 交易 数据 ,每 一 行 


关联 分 析 函 数 的 用 法 。 
>install.packages ("arules") “# 下 载 安装 arules 包 
>1library (arules) # 加 载 arules 软件 包 
> data ("Groceries") # 获 取 数 据 集 Groceries 
> summary (Groceries) # 获 取 数 据 集 Groceries 的 概括 信息 


transactions as itemMatrix in sparse format with 
9835 rows (elements/itemsets/transactions) and 
169 columns (items) and a density of 0.02609146 


most frequent items: 


whole milk other vegetables rolls/buns soda 
2513 1903 1809 1715 
yogurt (Other) 
1372 34055 


element (itemset/transaction) length distribution: 
Sizes 
1 2 3 4 5 6 Wh 8 全 6， 和 外 
2159 1643 1299 1005 855 645 545 438 350 246 182 117 78 77 
16 Ey 18 19 20 2 和 和 24 26 2 28 29 各 
46 29 14 14 a 3 4 6 入 各 1 1 > 


Min. lst Qu. Median Mean 3rd Qu. Max. 
1.000 2.000 3.000 4.409 6.000 32.000 


includes extended item information -examples: 
labels level12 levell 
1 frankfurter sausage meat and sausage 
2 sausage sausage meat and sausage 
3 liver loaf sausage meat and sausage 
> inspect (Groceries[1:10]) # 观 测 Groceries 数据 集 的 前 10 行 数据 
items 
[1 {citrus fruit, 
semi- finished bread, 
margarine, 
ready soups} 
[2] {tropical fruit, 
Yogurt, 
coffee} 
[3] {whole milk} 
[4] {pipfruit, 


[5] {other vegetables, 





数据 记录 一 个 交易 ,每 个 交易 中 记录 了 当 次 交易 的 商品 名 称 。 下 面 以 Groceries 数据 集 展示 


15 
55 





[dg] {wholemilk, 
butter, 
yogurt, 
rice, 
abrasive cleaner} 

[7 {rolls/buns} 

[8] {other vegetables, 
UHT-milk, 
rolls/buns, 
bottled beer, 
liquor (appetizer)} 

[9] {pot plants} 

[10] {whole milk, 
cereals} 


第 二 步 : 探索 和 准备 数据 。 

获取 数据 后 ,我 们 来 看 Groceries 的 基本 信息 , 它 共 包含 9835 条 交易 (transactions) 以 
及 169 个 项 (items) ,也 就 是 我 们 通常 所 说 的 商品 ,并且 全 脂 牛 奶 (whole milk) 是 最 受 欢迎 的 
商品 ,之 后 依次 为 蔬菜 (other vegetables)、 面 包 卷 (rolls/buns) 等 。 更 多 信息 可 具体 参看 
summary(Groceries) 的 其 他 输出 结果 。 

为 了 对 将 要 使 用 的 数据 集 有 直观 的 把 握 ,将 Groceries 数据 集 的 前 10 条 交易 信息 展示 。 
其 中 每 一 条 数据 即 代表 一 位 消费 者 购物 篮 中 的 商品 类 别 , 如 第 一 位 消费 者 购买 了 柑橘 
(citrus fruit)、 半成品 面包 (semi-finished bread) 、 黄 油 (margarine) 以 及 食 汤 (ready soups) 
四 种 食物 。 

我 们 做 关联 分 析 的 目标 ,就 是 发 气 消 费 者 对 这 些 商 品 的 购买 行为 之 间 是 否 有 关联 性 ,以 
及 关联 性 有 多 强 , 并 将 获取 的 信息 付 诸 实 际 运 用 。 

首先 ,我们 尝试 对 apriori() 函数 以 最 少 的 限制 ,观察 它 可 以 反馈 给 我 们 哪些 信息 ,再 以 
此 决定 下 一 步 操作 。 这 里 将 支持 度 的 最 小 阔 值 (minsup) 设 置 为 0. 001, 置 信 度 最 小 阔 值 
(mincon) 设 为 0.5, 其 他 参数 不 进行 设 定 取 默 认 值 ,并 将 所 得 关联 规则 名 记 为 rules() 。 

>rules0 = apriori (Groceries, parameter = list ( support=0.001，confidence=0.5 )) 

# 生 成 关联 规则 rule0 


Apriori 


Parameter specification: 
confidence minval smax arem aval originalSupport maxtime support 
0.5 0.1 1 none FALSE TRUE 5 0.001 
minlen maxlen target ext 
时 10 rules FRLSE 


Algorithmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE 区 TRUE 


Absolute minimum support count: 9 


set item appearances ..[0 item(s)] done [0.00s] . 


set transactions ..[169 item(s), 9835 transaction (s)] done [0.00s] . 
sorting and recoding items ...[157 item(s)] done [0.00s]. 

creating transaction tree ... done [0.02s] . 

checking subsets of size 1 2 3 4 5 6 done [0.02s]. 

writing ...[5668 rule(s)] done [0.00s]. 

creating S4 object ...done [0.00s]. 


以 上 输出 结果 中 包括 指明 支持 度 、 置 信和 度 最 小 值 的 参数 详解 (parameterspecification)、 
部 分 记录 算法 执行 过 程 中 相关 参数 的 算法 控制 (algorithmic control) 部 分 ,以 及 Apriori 算 
法 的 基本 信息 和 执行 细节 ,如 apriori() 函 数 的 版 本 、 各 步骤 的 程序 运行 时 间 等 。 








>rules0 # 显 示 rule0 中 生成 关联 规则 的 条 数 
Set of 5668 rules 
>inspect ( rules0[ 1:10] ) ## 观 测 rule0 中 前 10 条 规则 
lhs rhs support confidence 
1] {honey} => {whole milk} 0.001118454 0.7333333 
[2] {tidbits} => {rolls/buns} 0.001220132 0.5217391 
[3] {cocoa drinks} => {whole milk} 0.001321810 0.5909091 
[4] {pudding powder} => {whole milk} 0.001321810 0.5652174 
5] {cooking chocolate} => {whole milk} 0.001321810 0.5200000 
[可 {cereals} => {whole milk} 0.003660397 0.6428571 
[7] {jam} => {whole milk} 0.002948653 0.5471698 
[8] {specialty cheese} => {other vegetables} 0.004270463 0.5000000 
[9] {rice} => {other vegetables} 0.003965430 0.5200000 
[10] {rice} => {whole milk} 0.004677173 0.6133333 
lift count 
[1] 2.870009 11 
[2] 2.836542 12 
[2 3 
[4 2.212062 13 
[5] 2.035097 13 
[6] 2.515917 36 
[7] 2.141431 29 
[8] 2.584078 42 
[9] 2.687441 39 
[10] 2.400371 46 





可 以 看 到 ,rules() 中 共 包 含 5668 条 关联 规则 ,可 以 想象 , 若 将 如 此 大 量 的 关联 规则 全 
部 输出 是 没有 意义 的 。 仔 细 观 察 每 条 规则 ,我 们 发 现 关 联 规 则 的 先后 顺序 与 可 以 表明 其 关 
联 性 强度 的 三 个 参数 值 (support\confidence \lift) 的 取 值 大 小 并 没有 明显 关系 。 

面 对 杂 乱 无 章 的 大 量 信息 ,我 们 无 法 快速 获取 如 关联 性 最 强 的 规则 等 重要 信息 。 因 此 ， 
可 以 考虑 选择 生成 其 中 关联 性 较 强 的 若干 条 规则 。 

第 三 步 : 对 生成 规则 进行 强度 控制 。 

常用 的 方法 是 通过 提高 支持 度 和 置信 度 的 比值 来 实现 这 一 目的 ,这 往往 是 一 个 不 断 调 
整 的 过 程 。 最 终 关 联 规则 的 规模 大 小 ,或 者 说 强度 高 低 ,是 根据 使 用 者 的 需要 决定 的 。 但 
是 ,如 果 阔 值 设 定 较 高 ,容易 丢失 有 用 信息 ; 车 设 定 较 低 , 则 生成 的 规则 数量 将 会 很 大 。 

一 般 来 说 ,我 们 可 以 选择 先 不 对 参数 进行 设置 ,直接 使 用 apriori() 函 数 的 默认 值 ( 支 持 
度 为 0.1, 置 信 度 为 0.8) 来 生成 规则 ,再 进一步 调整 。 或 者 如 上 一 节 所 示 , 先 将 阔 值 设 定 得 


很 低 , 再 逐步 提高 阔 值 ,直至 达到 设想 的 规则 规模 或 强度 为 止 。 
下 面 我 们 尝试 筛选 出 其 中 前 5 条 左右 的 强 关联 规则 。 在 上 面 的 过 程 中 ,已 知 当 支持 度 
与 置信 度 分 别 为 0.001 和 0.5 时 ,可 以 得 到 5668 条 规则 ,以 此 作为 如 下 一 系列 参数 调整 过 
程 的 基础 。 
(1) 通过 支持 度 、 置 信和 度 共同 控制 。 
首先 ,我 们 可 以 考虑 将 支持 度 与 置信 和 度 两 个 指标 共同 提高 来 实现 。 当 仅 将 支持 度 提 高 
0. 004 一 0. 005 时 ,规则 数 降 为 120 条 ,进而 调整 置信 度 参数 至 0. 64 后 , 仅 余 下 4 条 规则 。 
另外 ,在 两 个 参数 共同 调整 过 程 中 ,如 果 更 注重 关联 项 集 在 总 体 中 所 占 的 比例 , 则 可 以 适当 
地 多 提高 支持 度 的 值 ; 如 果 更 注重 规则 本 身 的 可 靠 性 , 则 可 多 提高 一 些 置信 度 值 。 
> rulesl =apriori (Groceries,parameter= list (support=0.005, confidence= 0.5)) 
# 将 支持 度 调整 为 0.005, 记 为 rulel 
>rulesl # 显 示 rulel 生成 关联 规则 的 条 数 
set of 120 rules 
> Iules2= apriori (Groceries,parameter= list (Support=0.005,confidence=0.60)) 
# 将 置信 度 调整 为 0.60, 记 为 rule2 
> rules2 # 显示 rule2 成 关联 规则 的 条 数 
set of 22 rules 
>Irules3=apriori (Groceries,parameter= list (support= 0.005, confidence=0.64)) 
# 将 置信 度 调整 为 0.64, 记 为 rule3 
>rules3 # 显示 rule2 成 关联 规则 的 条 数 
set of 4 rules 
> inspect (rules3) 


lhs rhs support confidence 
[1] {butter, whipped/sour cream} => {whole milk} 0.006710727 0.6600000 
[2] {pip fruit,whipped/sour cream} => {whole milk} 0.005998983 0.6483516 


3j {pip fruit, root vegetables, other vegetables} => {whole milk} 
0.005490595 0.6750000 
4] {tropical fruit, root vegetables, yogurt} => {whole milk} 
0.005693950 0.7000000 
lift count 
1] 2.583008 66 
2] 2.537421 59 
3] 2.641713 54 
和 2.739554 56 








(2) 通过 支持 度 控制 。 

也 可 以 采取 对 其 中 一 个 指标 给 予 固定 阔 值 ,再 按照 其 他 指标 来 选择 前 5 强 的 关联 规则 。 
比如 我 们 想 要 按照 支持 度 来 选择 , 则 可 以 运行 如 下 程序 。 

>rules.sorted sup= sort (rules0, by="support") 

# 给 定 置信 和 度 阔 值 为 0.5, 按 支持 度 排序 记 为 rules.sorted_sup 


> inspect (rules.sorted sup [1:5] ) 
# 输 出 rules.sorted sup 前 5 条 强 关联 规则 


lhs rhs support confidence lift count 
[1] {other vegetables,yogurt} => {whole milk} 0.02226741 0.5128806 2.007235 219 
[2] {tropical fruit, yogurt} => {whole milk} 0.01514997 0.5173611 2.024770 149 


[3] {other vegetables,whipped/sour cream}=> {whole milk} 
0.01464159 0.5070423 1.984385 144 





[4] {root Vegetables, yogurt} => {whole milk} 0.01453991 0.5629921 2.203354 143 

[5] {pip fruit,other vegetables} => {whole milk} 0.01352313 0.5175097 ”2.025351 133 

如 上 输出 结果 ,5 条 强 关联 规则 按照 支持 度 从 高 至 低 的 顺序 排列 出 来 。 这 种 控制 规则 
强度 的 方式 可 以 找 出 支持 度 最 高 的 若干 条 规则 。 当 我 们 对 某 一 指标 要 求 苛刻 时 ,可 以 优先 
考虑 该 方式 , 且 易 于 控制 输出 规则 的 条 数 。 

(3) 通过 置信 度 控制 。 

以 下 类 似 , 我 们 按照 置信 度 来 选 出 前 5 条 强 关联 规则 ,由 输出 结果 得 到 5 条 置信 度 高 达 
100% 的 关联 规则 。 比 如 第 一 条 规则 : 购买 了 米 和 糖 的 消费 者 ,都 购买 了 全 脂 牛奶 。 这 就 是 
一 条 相当 有 用 的 关联 规则 ,正如 这 些 食品 在 超市 往往 摆 放 得 很 近 。 

>rules.sorted con = sort (rules0, by= "confidence") 

# 给 定 支持 度 阔 值 为 0.001, 按 置信 度 排 序 , 记 为 rules.sorted_con 


> inspect ( rules.sorted con [1:5] ) 
# 输 出 rules.sorted _ con 前 5 条 强 关 联 规则 


rhs support confidence lift 
{rice, sugar} => {whole milk} 0.001220132 1 3.913649 
{canned fish,hygiene articles} => {whole milk} 0.001118454 1 3.913649 
{root vegetables, butter, rice} => {whole milk} 0.001016777 1 3.913649 





{root vegetables, whipped/sour cream, flour} => {whole milk} 
0.001728521 1 3.913649 
5] {butter, soft cheese, domestic eggs} => {whole milk} 0.001016777 1 3.913649 
count 
12 
ES 
10 
17 
5 10 


(4) 通过 提升 度 控制 。 

我 们 按 lift 值 进行 升序 排序 并 输出 前 5 条 。 

>rules.sorted lift= sort (rules0, by= "lift") 

# 给 定 支持 度 冰 值 为 0.001, 置 信 度 阔 值 为 0.5, 按 提升 度 排序 , 记 为 rules.sorted lift 


> inspect ( rules.sorted lift [1:5] ) 
# 输 出 rules.sorted lift 前 5 条 强 关联 规则 








lhs rhs support confidence lift 
[1] {Instant food products, soda} => {hamburger meat} 0.001220132 0.6315789 18.99565 
[2] {soda,popcorn} => {salty snack} 0.001220132 0.6315789 16.69779 
[3] {flour,baking powder} => {sugar} 0.001016777 0.5555556 16.40807 
[4] {ham,processed cheese} => {white bread} 0.001931876 0.6333333 15.04549 


5] {whole milk, Instant food products} => {hamburger meat} 

0.001525165 0.5000000 ”15.03823 
Count 
E 到 和 坊 
[2] 12 
[3] 10 
[4] 19 
[5] 15 








我 们 知道 ,提升 度 可 以 说 是 筛选 关联 规则 最 可 靠 的 指标 ,得 到 的 结论 往往 也 是 有 趣 且 有 





用 的 。 由 以 上 输出 结果 ,我 们 能 够 清晰 地 看 到 强度 最 高 的 关联 规则 为 {即食 食品 ,苏打 水 } 一 
{汉堡 肉 } ,其 后 为 {苏打 水 , 爆 米 花 } 一 {垃圾 食品 }。 这 是 一 个 符合 直观 猜想 的 有 趣 结果 ,我 
们 甚至 可 以 想象 ,形成 如 此 强 关 联 性 的 购物 行为 的 消费 者 是 一 批 辛苦 工作 一 周 后 去 超市 大 
采购 ,打算 周末 在 家 好 好 放松 , 吃 暮 片 、 泡 方便 面 、 喝 饮料 .看 电影 的 上 班 族 。 

第 四 步 : 改变 输出 形式 。 

我 们 知道 ,apriori() 和 eclat() 函数 都 可 以 根据 需要 输出 频繁 项 集 (frequentitemsets ) 等 
其 他 形式 的 结果 。 比 如 当 我 们 想 知道 某 超 市 这 个 月 销量 最 高 的 商品 ,或 者 拥 绑 销售 策略 在 
哪些 商品 篮 中 作用 最 显著 等 ,选择 输出 给 定 条 件 下 的 频繁 项 集 即 可 。 

以 下 是 将 目标 参数 (target) 设 为 frequentitemsets 后 的 结果 。 


> itemsets_apr= apriori (Groceries,parameter= list (supp= 0.001, target="frequent itemsets"), 
control= 1ist (sort=—1)) 
# 将 apriori() 中 的 目标 参数 设 为 频繁 项 集 


Apriori 


Parameter specification: 
confidence minval smax arem aval originalSupport maxtime support minlen maxlen 
NA 0.1 1 none FALSE TRUE 5 0.001 1 10 
target ext 
frequent itemsets FALSE 


Algorithmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE -1 TRUE 


Absolute minimum support count: 9 


set item appearances ..[0 item(s)] done [0.00s]. 

set transactions ..[169 item(s), 9835 transaction (s)] done [0.00s] 入 
sorting and recoding items ... [157 item(s)] done [0.00s] i 

creating transaction tree ... done [0.00s] “ 

checking subsets of size 1 2 3 456 done [0.01s]. 

writing ...[13492 set (s)] done [0.00s]. 

creating S4 object ...done [0.00s] . 


>itemsets apr # 显 示 所 生成 频繁 项 集 的 个 数 
Set of 13492 itemsets 
> inspect (itemsets_apr[1:5]) # 观 测 前 5 个 频繁 项 集 
items support count 
[1] {whole milk} 0.2555160 2513 
[2] {other vegetables} 0.1934926 1903 
[3] {rolls/buns} 0.1839349 1809 
[4] {soda} 0.1743772 1715 
[5] {yogurt} 0.1395018 1372 


如 上 结果 ,我 们 看 到 以 sort 参数 对 项 集 频 率 进行 降序 排序 后 ,销量 前 5 的 商品 分 别 为 
全 脂 牛奶 .蔬菜 .面包 卷 . 苏 打 以 及 酸奶 。 

第 五 步 : 关联 规则 的 可 视 化 。 

以 下 我 们 尝试 用 图 形 的 方式 更 直观 地 显示 关联 分 析 结 果 。 这 里 需要 用 到 R 的 扩展 软 
件 包 arulesViz, 我 们 将 介绍 几 个 简单 应 用 。 





>1library(arulesViz) # 加 载 程序 包 aruleViz 

>rules5< -apriori (Groceries,parameter = list (support=0.002,confidence=0.5)) 

# 生 成 关联 规则 rule5 

> rules5 # 显示 rules5 生 成 关联 规则 的 条 数 
set of 1098 rules 

>plot (rules5) # 对 rule5 作 散 点 图 ,如 图 8-1 所 示 
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图 8-1 1098 条 关联 规则 散 点 图 


程序 运行 得 到 图 8-1 所 示 的 散 点 图 ,图 中 每 个 点 对 应 于 相应 的 支持 度 和 置信 度 值 ,分 别 
由 图 形 的 横 纵 轴 显 示 ,其 中 关联 规则 点 的 颜色 深浅 由 lift 值 的 高 低 决定 。 从 图 8-1 可 以 看 出 
大 量规 则 的 参数 取 值 分 布 情况 ,如 提升 度 较 高 的 关联 规则 的 支持 度 往往 较 低 , 支 持 度 与 置信 
度 具有 明显 反 相关 性 等 。 不 足 之 处 在 于 ,不 能 具体 得 知 这 些 规则 对 应 的 是 哪些 商品 ,以 及 它们 
的 关联 强度 如 何等 信息 。 这 一 缺陷 可 通过 互动 参数 (interactive) 的 设置 来 弥补 ,如 图 8-2 所 示 。 








lift 





图 8-2 1098 条 关联 规则 互动 散 点 图 





当 单 击 filter 过 滤 按 钮 后 ,再 单 击 图 形 右 侧 lift 颜色 条 中 的 某 处 , 即 可 将 小 于 单 击 处 lift 
值 的 关联 规则 点 都 过 滤 掉 。 图 8-3 所 示 为 过 滤 掉 lift 值 小 于 4. 5 的 点 后 的 互动 散 点 图 。 


>plot (rules5, interactive = TRUE) # 绘 制 互动 散 点 图 
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图 8-3 按 lift 值 过 滤 后 的 1098 条 关联 规则 互动 散 点 图 


另外 ,我 们 还 可 以 将 shading 参数 设置 为 order 来 绘制 出 一 种 特殊 的 散 点 图 Two- 
key 图 ,如 图 8-4 所 示 。 横 纵 轴 依然 为 支持 度 和 置信 度 ,而 关联 规则 点 的 颜色 深浅 则 表示 其 
代表 的 关联 规则 中 含有 商品 的 多 少 , 商 品种 类 越 多 ,点 的 颜色 越 深 。 


>Plot (rules5, shading = "order",control = list (main= "Two- key plot")) 
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# 绘 制 Two- key 散 点 图 
order5 
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图 8-4 1098 条 关联 规则 Two-key 散 点 图 


下 面 我 们 将 图 形 类 型 更 改 为 grouped 来 生成 图 8-5。 从 图 中 按照 lift 参数 来 看 ,关联 性 
最 强 ( 圆 点 颜色 最 深 ) 的 两 种 商品 为 黄油 (butter) 与 生 / 酸 奶油 (whipped/sourcream) ,而 以 


support 参数 来 看 则 是 热带 水 果 (tropical fruit) 与 全 脂 牛奶 C(whole milk) 关 联 性 最 强 ( 圆 点 
尺寸 最 大 ) 。 


>plot (rules5,method = "grouped") # 对 rules5 作 分 组 图 
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图 8-5 1098 条 关联 规则 分 组 图 


8.2.4 Apriori 算法 的 优 缺 点 


Apriori 算法 是 第 一 个 关联 规则 挖掘 算法 ,具有 以 下 优点 。 

(1) Apriori 算 法 采用 逐 层 搜索 的 迭代 方法 ,算法 简单 明了 ,没有 复杂 的 理论 推导 ,也 易 
(2) 数据 采用 水 平 组 织 方式 : 所 谓 水 平 组 织 就 是 数据 按照 {TID,IS}) , 即 {事务 编号 ,项 
目 集 } 这 种 形式 组 织 。 

(3) 采用 Apriori 优化 方法 : 所 谓 Apriori 优化 就 是 利用 Apriori 性 质 进行 的 优化 。 

(4) 适合 事务 数据 库 的 关联 规则 挖掘 。 

(5) 适合 稀 朴 数据 集 : 根据 以 往 的 研究 ,该 算法 只 能 适合 稀 朴 数据 集 的 关联 规则 挖掘 ， 
也 就 是 频繁 项 目 集 的 长 度 稍 小 的 数据 集 。 

Apriori 算法 的 这 些 优 点 使 其 广泛 应 用 于 关联 规则 挖掘 中 ,但 是 它 也 存在 以 下 一 些 难 以 
克服 的 缺陷 。 

(1) 对 数据 库 的 扫描 次 数 过 多 。 在 Apriori 算法 的 扫描 中 ,每 生成 一 个 候选 项 集 ,都 要 
对 数据 库 进 行 一 次 全 面 的 搜索 。 如 果 要 生成 最 大 长 度 为 K 的 频繁 项 集 , 那 么 就 要 对 数据 库 
进行 K 次 扫描 。 当 数据 库 中 存放 大 量 的 事务 数据 时 ,在 有 限 的 内 存 容量 下 ,系统 I/O 负载 
相当 大 ,每 次 扫描 数据 库 的 时 间 就 会 很 长 ,这 样 效率 就 非常 低 。 

(2) Apriori 算法 可 能 产生 大 量 的 候选 项 集 。 若 频繁 1- 项 集 的 个 数 为 10000, 则 候选 2- 项 
集 的 个 数 将 超过 10MB。 若 要 发 现 长 度 为 100 的 频繁 项 集 , 则 必 将 产生 多 达 2100 个 候选 项 集 。 


(3) 在 频繁 项 目 集 长 度 变 大 的 情况 下 ,运算 时 间 显 著 增 加 。 当 频繁 项 目 集 长 度 变 大 时 ， 
支持 该 频繁 项 目 集 的 事务 会 减少 ,从 理论 上 讲 , 计 算 其 支持 度 需要 的 时 间 不 会 明显 增加 ,但 
Apriori 算法 仍然 是 在 原来 事务 数据 库 中 计算 长 频繁 项 目 集 的 支持 度 ,由 于 每 个 频繁 项 目 集 
的 项 目 变 多 了 ,所 以 在 确定 每 个 频繁 项 目 集 是 否 被 事务 支持 的 开销 也 增 大 了 ,而 且 事务 没有 
减少 ,因此 当 频 繁 项 目 集 长 度 增加 时 ,运算 时 间 显著 增加 。 

(4) 采用 唯一 支持 度 , 没 有 考虑 各 个 属性 重要 程度 的 不 同 。 在 现实 生活 中 ,一 些 事务 的 
发 生 非常 频繁 ,而 有 些 事务 则 很 稀 朴 ,这 样 对 挖掘 来 说 存在 一 个 问题 : 如 果 最 小 支持 度 阔 值 
定 得 较 高 ,虽然 加 快 了 速度 ,但 是 覆盖 那么 大 量 的 无 实际 意义 的 规则 将 充斥 在 整个 挖掘 过 程 
中 ,大 大 降低 了 挖掘 效率 和 规则 的 可 用 性 ,这 将 误导 决策 的 制定 。 

(5) 算法 的 适应 面 窗 。 该 算法 只 考虑 了 单 维 布尔 关联 规则 的 挖掘 ,但 在 实际 应 用 中 ,可 
能 出 现 多 维 的 ,数量 的 、 多 层 的 关联 规则 。 这 时 ,该 算法 就 不 再 适用 ,需要 改进 ,甚至 需要 重 
新 设计 算法 。 





8.3 FP-Growth 算法 


8.3.1 FP-Growth 算法 的 基本 思想 


为 了 避免 前 面 提 到 的 Apriori 算法 的 弱点 ,Han 等 人 提出 了 一 种 不 产生 候选 项 集 的 算 
法 FP-Growth (Frepuent-Pattern Growth) ,也 称 FP- 增 长 算法 。 该 算法 脱离 了 传统 的 产生 
频繁 项 集 候选 的 方式 ,提出 了 关联 挖掘 算法 的 新 思路 。 

(1) FP-Growth 算法 构造 了 一 种 新 颖 、 紧 凑 的 数据 结构 FP-tree。 这 是 一 种 扩展 的 前 绥 
树 结构 ,存储 了 关于 频繁 模式 数量 的 重要 信息 , 树 中 只 包含 长 度 为 1 的 频繁 项 作为 节点 ,并 
且 那 些 频 度 高 的 节点 更 靠近 树 的 顶点 。 因 此 ,支持 度 高 的 项 目 比 那些 支持 度 低 的 项 目 更 有 
机 会 共享 一 个 节点 。 

(2) 给 出 了 基于 FP-tree 的 模式 片断 成 长 算法 。 它 从 长 度 为 1 的 频繁 模式 开始 ,只 检查 
它 的 条 件 模式 构建 它 的 条 件 模式 树 , 同 时 在 这 个 树 上 递归 执行 关联 规则 挖掘 。 模 式 的 成 长 
通过 联合 条 件 模 式 树 新 产生 的 后 级 模式 实现 。FP-tree 算法 不 同 于 Apriori 算法 , 它 无 须 再 
测试 ,只 要 进行 一 次 测试 即 可 。 关 联 规则 挖掘 的 主要 操作 是 计算 累加 值 和 调整 前 级 树 , 因 此 
它 的 花费 要 比 Apriori 算法 少 得 多 。 

(3) FP-tree 算法 采用 “分 而 治之 ”方法 。 通 过 分 割 再 解决 的 办 法 将 发 现 的 长 频繁 模式 
转化 为 寻找 短 模式 ,然后 再 进行 后 缀 连接 ,避免 产生 长 候选 项 集 。 


8.3.2 FP-tree 表示 法 


FP-tree 是 一 种 输入 数据 的 压缩 表示 , 它 通 过 逐个 读 人 事务 ,并 把 每 个 事务 映射 到 FP 
树 中 的 一 条 路 径 来 构造 。 

输入 : 事务 数据 库 D 和 最 小 支持 度 国 值 minsupport 。 

输出 : D 对 应 的 FP-tree。 

方法 : FP-tree 是 按 以 下 步骤 构造 的 。 

(1) 扫描 事务 库 D, 获 得 D 中 包含 的 全 部 频繁 项 集 IF ,以 及 它们 各 自 的 支持 度 。 对 1F 





中 的 频繁 项 按 其 支持 度 降序 排序 得 到 工 。 

(2) 创建 FP-tree 的 根 节点 工 ,以 null 标记 ,再 次 扫描 事务 库 。 对 于 D 中 每 个 事务 ,将 
其 中 的 频繁 项 选 出 并 按 L 中 的 次 序 排序 。 设 排序 后 的 频繁 项 表 为 [p| Pj], 其 中 p 是 第 一 个 
频繁 项 ,而 PP 是 剩余 的 频繁 项 。 调 用 insert_tree([p |P],T). insert_tree([p | 卫 ],T) 过 程 
执行 情况 为 : 如 果 工 有 子女 N 使 N.item_name 一 p.item_name, 则 N 的 计数 增加 1; 否则 
创建 一 个 新 节点 N ,将 其 计数 设置 为 1 ,链接 到 它 的 父 节点 了 ,并 且 通 过 node_link 将 其 链接 
到 具有 相同 item_name 的 节点 。 如 果 PP 非 空 ,递归 地 调用 insert_tree(P,N) 。 


8.3.3 FP-Growth 算法 的 应 用 实例 


【 例 8-4】 选取 一 个 实际 的 数据 集 进 行 测试 。 该 数据 集合 包含 了 100 万 条 记录 ,文件 中 

的 每 一 行 表示 某 个 用 户 浏 览 过 的 新 闻 报 道 , 现 用 FP-Growth 算法 来 找 出 至 少 被 10 万 人 浏 
分 析 : 按照 FP-Growth 算法 的 基本 思想 和 FP-tree 表示 法 ,本 例 采用 Python 语言 进行 
解 : (1) 构建 FP-tree。 





# coding:utf- 8 
from numpy import * 


class treeNode:# 定 义 节点 类 ,创建 一 个 类 来 保存 树 的 每 一 个 节点 
def init (self, nameValue, numOccur, parentNode): 
self.name = nameValue# 值 
self.count = numoccur# 数 量 
self.nodeLink = None# 节 点 链接 
self.parent = parentNode ## 父 节点 
self.children = {} # 孩 子 


def inc (self，numoccur) :# count 计算 
self.count += numOccur 


def disp (self，ind=1) :# 按 照 等 级 打印 出 每 个 节点 
Print ' '* ind, self.name, ' ', self.count 
for child in self.children.values(): 
child.disp (ind+ 1) 


rootNode = treeNode ('pyramid', 9, None)# 节 点 

rootNode.children[ 'eye'] = treeNode ('eye', 13, None)# 子 节点 

a= rootNode.disp() 

print a 

等 级 输出 节点 结果 如 图 8-6 所 示 。 

def createTree(dataSet,minSup 二 1):#FP 表示 的 是 频繁 模式 ,其 通过 链接 来 连接 相 
似 元 素 ,被 连 起 来 的 元 素 可 以 看 成 是 一 个 链表 。 将 事务 数据 表 中 的 各 个 事务 对 应 的 数据 项 
按照 支持 度 排序 后 ,把 每 个 事务 中 的 数据 项 按 降 序 依次 插入 一 棵 以 NULL 为 根 节点 的 树 
中 ,同时 在 每 个 节点 处 记录 该 节点 出 现 的 支持 度 。 


大 数据 


Process fi>isrec wit exit coce 0 





图 8-6 等 级 输出 节点 


headerTable = {} 
for trans in dataSet: 
for item in trans: 
headerTable[ item] = headerTable.get (item, 0) + dataSet[trans] 
# 记 录 每 个 元 素 项 出 现 的 频 度 ,计数 
for k in headerTable.keys () :# key 中 
if headerTable[k] < minsup: 
del (headerTable[ kj])# 删 除 键 值 
freqItemSet = set (headerTable.keys())# 建 立 集合 
if len (freqItemSet) == 0:# 去 除 不 满足 最 小 值 支持 度 要 求 的 值 
return None，None 
for k in headerTable: 
headerTable[ k] = [headerTable[ k], None] 
retTree = treeNode('Null Set', 1, None) 
for tranSet, count in dataSet .items(): 
localD= {} 
for item in tranSet: 
if item in freqItemSet: 
localDL item] = headerTable[ item][ 0] 
if len (localD) > 0: 
orderedItems = [v0] for v in sorted(localD.items () ，key= lambda p:PL1]，reverse 
= True)] 
updateTree (orderedItems, retTree, headerTable, count) 
return retTree, headerTable 


def updateTree (items, inTree, headerTable, count) :# 更 新 树 
if items[0] in inTree.children: 


inTree.children[ items[0]] .inc(count) 


else: 
inTree.children[ items[0]] = treeNode (items[0], count, inTree) 
if headerTable[ items[0]][1] == None: 
headerTable[ items[0]][1] = inTree.children[ items[ 0]] 
else: 


updateHeader (headerTable[ items[ 0]][1], inTree.children[ items[ 0]]) 
if len (items) > 1: 


updateTree (items[1::], inTree.children[ items[0]], headerTable, count) 


def updateHeader (nodeToTest，targetNode) :# 更 新 每 个 节点 的 链接 
while (nodeToTest.nodeLink ! = None) : 
nodeToTest = nodeToTest.nodeLink 
nodeToTest .nodeLink = targetNode 


def loadsimpDat () :# 自 定义 数据 集 
a = [Ere ms. 


a 
Lz] 

> "Ry 
[iy x, 
[Ly', ‘x', 





return simpDat 


def createInitSet (dataset) :# 建 立 字典 
retDict = {} 
for trans in dataSet: 
retDict[ frozenset (trans)] = 1 


return retDict 


simpDat = loadSimpDat () 

initSet = createInitSet (simpDat) 

myFPtree, myHeaderTab = createTree (initSet, 3) 
a= myFPtree.disp() 


print a 





如 图 8-7 所 示 


FP-grostz 处 法 





图 8-7 原始 集合 FP-tree 的 节点 


(2) 从 FP-tree 中 挖掘 频繁 项 集 


def ascendTree (leafNode, prefixPath): # 从 叶 节 点 到 根 节点 的 提升 
if leafNode.parent != None: 
prefixPath.append (leafNode.name) 
ascendTree (leafNode .parent, prefixPath) 


def findPrefixPath (basePat, treeNode) : # 树 节点 来 自 树 的 表 
condPats = {} 
while treeNode != None: 
prefixPath = [] 
ascendTree (treeNode, prefixPath) 
if len (prefixPath) > 1: 
condPats[ frozenset (prefixPath[1:])] = treeNode.count 


大 数据 


挖掘 


treeNode = treeNode.nodeLink 


return condPats 


simpDat = loadsimpDat () 

initSet = createInitSet (simpDat) 
myFPtree, myHeaderTab = createTree(initSet, 3) 
a= myFPtree.disp!() 

b= findPprefixPath('x', myHeaderTab[ 





print b 


每 条 路 径 上 的 数目 结果 如 图 8-8 所 示 。 


Process f: ec wit® exit coce 0 


图 8-8 每 条 路 径 上 的 数目 


# 首 先 构造 FP 树 ,然后 利用 它 来 挖掘 频繁 项 集 。 在 构造 FP 树 时 ,需要 对 数据 集 扫 描 两 遍 , 第 
用 于 统计 频率 ,第 二 遍 扫 描 只 考虑 频繁 项 集 。 下 面 对 FP 树 加 以 说 明 。 
def mineTree (inTree, headerTable, minSup, preFix, freqItemList): 

bigL = [v0] for v in sorted(headerTable.items ()，key= lanbda p: pL1])j# (排序 表 ) 






for basePat in bigL: 
newFreqSet = PreFix.copy() 
newFreqSet .add (basePat) 
freqItemList .append (newFreqSet) 
condPattBases = findPrefixPath (basePat, headerTable[basePat][1]) 
myCondTree, myHead = createTree (condPattBases, minSup) 
if myHead ! = None: 
mineTree (myCondTree, myHead, minSup, newFreqSet, freqItemList) 
#@ 构 建 FP 树 ; 
#@ 从 FP 树 中 挖掘 频繁 项 集 
parsedData = [line.split() for line in open('kosarak.dat') .readlines ()]# 读 取 数 据 
initSet = createInitSet (parsedData)# 建 立 初 始 数据 集合 
myFPtree, myHeaderTab = createTree (initSet，100000)# 载 人 FP 结构 树 
myFreqList = []# 新 建 列表 


mineTree (myFPtree,myHeaderTab, 100000, set ([]) ,myFregList) 





b= len(myFreqList) 





- 遍 扫 描 
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print b 
print myFreqList 


对 每 个 频繁 项 集 创建 FP-tree 结果 如 图 8-9 所 示 。 





图 8-9 对 每 个 频繁 项 集 创建 FP-tree 


8.3.4 FP-Growth 算法 的 优 缺 点 


玉 缩 的 结构 , 它 存 储 了 用 于 挖掘 频繁 项 集 的 全 部 信息 。FP-tree 所 
占用 的 内 存 空间 与 树 的 深度 和 宽度 成 比例 , 树 的 深度 一 般 是 单个 事务 中 所 含 项 目 数量 的 最 
大 值 , 树 的 宽度 是 平均 每 层 所 含 项 目的 数量 。 由 于 在 事务 处 理 中 通常 会 存在 大 量 的 共享 频 
i ,所 以 树 的 大 小 通常 比 原 数据 库 小 很 多 。 频 繁 项 集中 的 项 以 支持 度 降序 排列 ,支持 度 越 
j FP-tree 的 根 距离 越 近 , 因 此 有 更 多 的 机 会 共享 节点 ,这 进一步 保证 了 FP-tree 的 


FP-tree 是 一 个 高 


















生 最 坏 的 情况 , 即 树 的 子 节点 过 多 ,例如 生成 了 只 包含 前 级 的 树 ， 
那么 也 会 导致 算法 效率 大 幅度 下 降 。FP-Growth 算法 需要 递归 生成 条 件数 据 库 和 条 件 FP 
tree, 所 以 内 存 开 销 大 ,而 且 只 能 用 于 挖掘 单 维 的 布尔 关联 规则 。 






8.4 关联 规则 的 后 处 理 与 扩展 


8.4.1 基于 RHadoop 的 关联 规则 挖掘 


在 信息 过 量 的 时 代 , 个 性 化 推荐 迅速 发 展 ,关联 规则 进行 协同 过 滤 推 荐 也 是 其 中 之 一 
基于 RHadoop 的 关联 规则 挖掘 主要 是 根据 关联 规则 算法 使 用 Hadoop 和 RHadoop 工具 进 
行 实现 。 关 联 规则 中 使 用 频繁 模式 法 ,包括 Apriori 算法 ,进行 逐 层 迭代 连接 产生 候 
选 ,利用 先 验 信息 进行 剪 枝 ,将 信息 压缩 为 FP 树 结构 ,并 在 树 中 进行 递归 的 挖掘 ,然后 进行 
输入 数据 、 预 处 理 .FPG 处 理 、 生 成 规则 等 一 系列 流程 ,从 而 实现 基于 RHadoop 的 关联 规则 
。 需 要 是 ,其 中 有 一 些 细节 的 处 理 , 例 如 向 量 的 转化 ,还 有 进行 一 些 后 续 
的 处 理 , 例 如 分 类 的 模 


8.4.2 基于 云 计 算 的 关联 规则 挖掘 算法 


随 着 互联 网 技术 和 虚拟 机 技术 的 发 展 , 以 及 人 们 日 常 处 理 的 数据 规模 日 益 增 加 , 云 计算 
技术 在 近 几 年 开始 引起 大 众 的 推崇 。 伴 随 着 广阔 的 发 展 前 景 及 商机 , 云 计 算 技 术 兴 起 的 同 
时 也 带 来 了 技术 上 的 难题 。 

在 海量 数据 的 背后 , 吸 须 借助 云 计算 平台 的 服务 质量 以 及 使 用 效率 来 发 现 大 量 数 据 中 
项 集 之 间 有 趣 的 关联 或 相关 联系 。 近 年 来 ,基于 云 计算 的 关联 规则 挖掘 得 到 越 来 越 多 学 者 



























的 关注 ,如 基于 云 计算 的 核心 模式 MapReduce 框架 的 Apriori 算法 。 

该 算法 假设 事务 数据 库 水 平分 割 成 不 相交 的 数据 块 ,分 散 存 储 在 集群 系统 或 服务 器 上 ， 
称 为 存储 节点 。 每 个 节点 位 置 都 有 一 段 实 现 Apriori 的 Map 函数 的 程序 ,基于 每 个 节点 的 
Map 函数 ,把 键 值 对 (Key/Value) 映 射 成 新 的 键 值 对 ,形成 一 系列 中 间 结 果 形 式 的 键 值 对 ， 
然后 将 其 传 给 Reduce( 规 约 ) 函 数 ,把 具有 相同 中 间 形 式 Key 的 Value 合并 在 一 起 。 其 中 ， 
Key 代表 项 集 的 名 称 , Reduce 代表 该 项 集 的 支持 度 。 图 8-10 描述 了 算法 的 执行 过 程 。 
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图 8-10 基于 MapReduce 的 Apriori 算法 


云 计算 是 分 布 式 处 理 .并行 处 理 和 网 络 计算 的 发 展 或 者 是 这 些 计算 科学 概念 的 商业 实 
现 。MapReduce 是 云 计算 的 核心 计算 模式 ,是 一 种 分 布 式 运算 技术 及 简化 的 分 布 式 编程 模 
式 , 用 于 解决 问题 的 程序 开发 模型 ,也 是 开发 人 员 拆 解 问题 的 方法 。 通 过 对 Apriori 算法 的 
相关 分 析 , 希 望 通过 减少 连接 次 数 进而 减少 数据 库 扫描 时 间 , 对 候选 频繁 项 集 项 目 集 不 存 
储 ,从 而 减少 内 存 空间 ,使 算法 的 性 能 将 有 所 提高 。 而 MapReduce 框架 的 Apriori 算法 的 实 
现 可 以 节约 算法 运行 时 间 , 减 小 算法 运行 时 所 占 的 内 存 空间 ,这 一 应 用 在 未 来 也 会 有 很 大 的 
发 展 。 


8.4.3 空间 数据 挖掘 


空间 数据 挖掘 是 指 从 空间 数据 库 中 提取 隐 含 的 用 户 感 兴趣 的 空间 和 非 空 间 模式 、. 普 遍 
竺 征 ,规则 和 知识 的 过 程 。 空 间 数 据 控 掘 是 一 个 多 学 科 交 叉 的 知识 领域 ,其 包括 空间 数据 库 
系统 、 统 计 学 、 机 器 学 习 、 模 式 识别 .可 视 化 和 空间 信息 科学 等 学 科 领 域 。 空 间 数据 挖掘 可 用 
于 理解 空间 数据 、 空 间 关 系 和 空间 与 非 空间 数据 间 关 系 的 发 现 、 优 化 空间 查询 .构造 空间 知 
识 库 和 重组 空间 数据 库 等 方面 .特别 是 在 遥感 图像 处 理 .GIS、 导 航 等 专业 领域 具有 广阔 的 
应 用 前 景 。 

目前 根据 所 用 的 挖掘 技术 不 同 .空间 数据 挖掘 方法 大 致 可 分 为 7 大 类 ,这 些 方法 的 特点 
见 表 8-4。 





表 8-4 空间 数据 挖掘 方法 分 类 及 其 特点 
挖掘 技术 空间 数据 挖掘 方法 特 点 
空间 关联 规则 方法 .归纳 学 习 方 | 十 gs ee 
基于 机 器 学 习 的 方法 法 .图 像 分 析 和 模式 识别 方法 、 决 eg We 
过 程 , 计 算 量 较 大 

策 树 方法 

统计 分 析 方 法 、 空 间 分 类 方法 、 空 | 运用 统计 学 或 概率 论 知识 ,对 空间 数 
间 聚 类 方法 、 探 测 性 的 数据 分 析 、| 据 按 某 一 准则 进行 统计 分 析 , 计 算 量 











基于 统计 和 概率 论 的 











证 据 理论 方法 大 且 复 杂 
基于 集合 论 的 方法 粗 集 方法 .模糊 集 理论 . 云 理论 ”| 所 处 理 的 问题 具有 不 确定 性 
以 图 空 等 
基于 图 论 的 方法 计算 几何 方法 、 空 间 趋势 探测 gee 
这 传 算法 .神经 网 络 方法 .大工 免 | 模拟 生物 处 理 过 得 ,一 般 需 学 习 训练， 
基于 仿生 学 的 方法 SS 0 





基于 地 球 信息 学 的 方法 ”| 空间 分 析 方 法 ,地 学 信息 图 谱 方法 | 借助 GIS、 地 理 等 工具 ,算法 较 复杂 
基于 计算 机 理论 的 方法 ”| 可 视 化 方法 、 空 间 在 线 数据 挖掘 利用 可 视 化 或 数据 库 技术 











空间 数据 挖掘 的 目标 是 从 大 量 的 原始 数据 中 提取 出 对 人 们 感 兴趣 , 且 有 价值 的 知识 ,其 
挖掘 过 程 一 般 可 分 为 : 数据 清理 ,数据 集成 ,数据 选择 ,数据 变换 .空间 数据 挖掘 、 模 式 评 估 、 
知识 表示 等 阶段 。 

(1) 数据 清理 是 从 原始 数据 中 过 滤 掉 带 有 噪声 或 不 相符 的 数据 。 

(2) 数据 集成 是 优化 组 合 多 种 数据 源 ,形成 相 容 数据 库 。 

(3) 数据 选择 是 从 空间 数据 库 中 按 特定 要 求 提 取 与 空间 数据 挖掘 相关 的 数据 。 

(4) 数据 变换 是 将 数据 转换 成 适合 挖掘 方法 的 统一 格式 。 

(5) 空间 数据 挖掘 是 运用 相应 的 挖掘 算法 ,从 数据 库 中 提取 用 户 感 兴趣 的 知识 。 

(6) 模式 评估 是 用 某 种 兴趣 度 来 衡量 并 识别 表示 知识 的 真正 有 价值 的 模式 。 

(7) 知识 表示 是 使 用 可 视 化 技术 和 知识 表示 技术 ,向 用 户 展示 挖掘 得 到 的 知识 。 

综 上 所 述 ,不 难得 出 结论 : 空间 数据 挖掘 实际 上 是 一 个 人 引导 机 器 、 机 器 帮助 人 的 交互 
理解 数据 的 过 程 。 


小 结 


关联 规则 是 解决 大 数据 问题 的 一 种 方法 ,作为 一 种 无 监督 的 学 习 算 法 ,能 够 从 没有 任何 
关于 模式 的 先 验 知识 的 大 型 数据 库 中 提取 知识 。 美 中 不 足 的 是 ,将 大 量 的 信息 缩减 成 更 小 ， 
更 易于 管理 的 结果 集 需要 一 些 努力 。 本 章 具 体 阐 述 了 关联 规则 的 基本 概念 ,常见 的 Apriori 
算法 .FP-Growth 算法 及 其 实现 过 程 , 并 且 介绍 了 部 分 与 大 数据 相关 的 前 沿 信息 。 
回 ， 回 回 站 回 





i 回 bE 
关联 规则 基本 概念 十 步骤 十 挖掘 算法 分 类 十 关联 规则 基本 概念 十 步骤 十 挖掘 算法 分 类 十 
应 用 场景 及 特点 十 质量 评价 . mp4(25. 0MB) 应 用 场景 及 特点 十 质量 评价 . mp4(27. 3MB) 


过 





FP-Growth 算法 的 基本 思想 十 FP-tree 表示 十 基于 RHadoop 的 关联 规则 挖掘 . mp4 








FP-Growth 算法 . mp4(9. 79MB) (11. 9MB) 
习题 
1. 填空 题 
(1) 关联 分 析 中 表示 关联 关系 的 方法 主要 有 和 
(2) 关联 规则 的 评价 度量 主要 有 和 
(3) 关联 规则 挖掘 的 算法 主要 有 和 四 
(4) 购物 篮 分 析 中 ,数据 是 以 的 形式 呈现 。 
(5) 一 个 项 集 满足 最 小 支持 度 , 称 为 。 
(6) 一 个 关联 规则 同时 满足 最 小 支持 度 和 最 小 置信 和 度 , 称 为 。 
(7) 在 回归 与 相关 分 析 中 , 因 变 量 值 随 自 变量 值 的 增 大 ( 减 小 ) 而 减 小 ( 增 大 ) 的 现象 
叫 作 
(8) 极 大 频繁 项 集 不 能 无 损 还 原 出 频繁 项 集 , 因 为 它 不 包含 频繁 项 集 的 信息 。 
(9) 经 典 的 Apriori 算法 是 逐 层 扫描 的 ,也 就 是 说 它 是 ( 选 深度 或 宽度 ) 优 
先 的 。 


(10) 数据 挖掘 的 大 概 步骤 包括 : 输入 数据 、 预 处 理 、 挖 掘 、 后 处 理 、 输 出 知识 。 其 中 , 输 
出 的 知识 可 以 有 很 多 种 表示 形式 ,两 种 极端 的 形式 是 : 四 内 部 结构 难以 被 理解 的 黑匣子 , 比 
如 入 工 神 经 网 络 训 练 得 出 的 网 络 ; @ 模 式 结构 清晰 的 匣子 ,这 种 结构 容易 被 人 理解 ,比如 决 


策 树 产生 的 树 。 那 么 ,关联 分 析 中 输出 的 知识 的 表示 形式 主要 是 ( 选 黑匣子 或 清晰 
结构 ) 。 
2. 选择 题 
(1) 以 下 属于 关联 分 析 的 是 : ( Ys 
A. CPU 性 能 预测 B. 购物 篮 分 析 
C. 自动 判断 营 尾 花 类 别 D. 股票 趋势 建 模 


(2) 维克托 。 迈 尔 - 舍 恩 伯 格 在 (大 数据 时 代 : 生活 、 工 作 与 思维 的 大 变革 ;一 书 中 ,持续 
强调 了 一 个 观点 : 大 数据 时 代 的 到 来 ,使 我 们 无 法 人 为 去 发 现 数据 中 的 奥妙 ,与 此 同时 ,我 
们 更 应 该 注重 数据 中 的 相关 关系 ,而 不 是 因果 关系 。 其 中 ,数据 之 间 的 相关 关系 可 以 通过 
( “) 算 法 直接 挖掘。 

A. K-Means B. Bayes Network 
C. C4.5 D. Apriori 
(3) 置信 和 度 (confidence) 是 衡量 兴趣 度 度量 ( ) 的 指标 。 


第 8 章 
| 关联 规则 
A. 简洁 性 B. 确定 性 C. 实用 性 D. 新 颖 性 
(4) Apriori 算法 的 加 速 过 程 依赖 于 以 下 ( ) 策 略 。 
A. 抽样 B. 前 枝 C. 缓冲 D. 并 行 
《5) 以 下 ( ) 会 降低 Apriori 算法 的 挖掘 效率 。 
A. 支持 度 阅 值 增 大 B. 项 数 减 少 
C. 事务 数 减 少 D. 减 小 硬盘 读 写 速率 
(6) Apriori 算法 使 用 到 ( )s 
A. 格 结构 有 向 无 环 图 B. 二 叉 树 、 哈 希 树 
C. 格 结构 、 哈 希 树 D. 多 又 树 \ 有 向 无 环 图 
(7) 非 频繁 模式 是 指 ( De 
A. 其 置信 和 度 小 于 阔 值 B. 令 人 不 感 兴趣 
C. 包含 负 模 式 和 负 相 关 模 式 D. 对 异常 数据 项 敏感 


(8) 对 频繁 项 集 、 频 繁 闭 项 集 、 极 大 频繁 项 集 的 关系 描述 正确 的 是 ( )。[ 注 : 分 别 


以 1、2、3 代表 ] 


A. 3 可 以 还 原 出 无 损 的 1 B. 

C. 3 与 2 是 完全 等 价 的 D. 
(9) Hash tree 在 Apriori 算法 中 所 起 的 作用 是 ( 

A. 存储 数据 B. 查找 CC; 
(10) 以 下 不 属于 数据 挖掘 软件 的 是 ( ) 。 

A. SPSS Modeler B. Weka Ee 
3. 简 答 题 


(1) 简 述 关联 规则 产生 的 两 个 基本 步骤 。 


2 可 以 还 原 出 无 损 的 1 
2 与 1 是 完全 等 价 的 
ys 
加 速 查找 D. 前 枝 


Apache Spark D. Knime 


(2) Apriori 算法 是 从 事务 数据 库 中 挖掘 布尔 关联 规则 的 常用 算法 ,该 算法 利用 频繁 项 
集 性 质 的 先 验 知识 ,从 候选 项 集中 找到 频繁 项 集 。 请 简 述 Apriori 算法 的 基本 原理 。 


(3) 简 述 Apriori 算法 的 优点 和 缺点 。 

(4) 针对 Apriori 算法 的 缺点 ,可 以 做 哪些 改进 ? 
(5) 强 关联 规则 一 定 是 有 趣 的 吗 ? 为 什么 ? 

(6) 列举 关联 规则 在 不 同 领域 中 应 用 的 实例 。 


(7) 给 出 如 下 几 种 类 型 的 关联 规则 的 例子 ,说 明 它们 是 否 有 价值 。 


高 支持 度 和 高 置信 度 的 规则 。 
@ 高 支持 度 和 低 置信 度 的 规则 。 
@ 低 支持 度 和 低 置信 度 的 规则 。 
@ 低 置信 度 和 高 置信 度 的 规则 。 
(8) 常用 关联 规则 的 算法 及 其 特点 是 什么 ? 


预测 方法 与 离 群 点 诊断 


【内 容 摘要 】 本 章 首 先 介绍 预测 方法 的 概念 及 分 类 、 预 测 模型 性 能 评价 度量 方法 和 常 
用 的 预测 方法 。 然 后 重点 讲解 灰色 预测 .马尔 科 夫 预测 。 最 后 讲述 大 数据 环境 下 离 群 点 检 
测 技术 方法 ,并 进行 比较 说 明 。 

【学 习 目 标 】 掌握 常用 基本 的 预测 方法 与 离 群 点 诊断 方法 的 概念 ,原理 与 适用 场景 ; 
能 够 熟练 地 运用 灰色 预测 、 马 尔 科 夫 预测 对 数据 进行 预测 ; 了 解 主 要 的 离 群 点 检测 技术 
方法 。 


9.1 预测 方法 概要 


大 数据 挖掘 的 任务 可 分 为 分 类 、 聚 类 关联. 回归、 预测 .序列 分 析 、 偏 差分 析 等 几 种 

(1) 分 类 。 分 类 是 找 出 数据 库 中 一 组 数据 对 象 的 共同 特点 ,并 按照 分 类 模式 将 其 划分 
为 不 同 的 类 ,其 目的 是 通过 分 类 模型 将 数据 库 中 的 数据 项 映射 到 某 个 给 定 的 类 别 。 典 型 的 
分 类 算法 有 决策 树 算 法 、 神 经 网 络 算法 、 贝 叶 斯 算法 。 

(2) 聚 类 。 聚 类 分 析 也 称 为 细 分 , 它 基于 一 组 属性 对 事例 进行 分 组 ,同一 个 聚 类 中 或 多 
或 少 有 相似 的 属性 值 。 

(3) 关联 。 关 联 是 发 现存 在 于 大 量 数据 集中 的 关联 性 或 相关 性 ,从 而 描述 了 一 个 事物 
中 某 些 属性 同时 出 现 的 规律 和 模式 。 

(4) 回归 。 回 归 任 务 类 似 于 分 类 任务 .但 它 不 是 查找 描述 类 的 模式 , 它 的 目的 是 查找 模 
式 以 确定 数值 。 

(5) 预测 。 预 测 技术 采用 数列 作为 输入 ,表示 一 系列 时 间 值 ,然后 应 用 各 种 能 做 数据 周 
期 性 分 析 ,趋势 分 析 、 噪 声 分 析 的 计算 机 学 习 和 统计 技术 来 估算 这 些 序列 未 来 的 值 。 

(6) 序列 分 析 。 用 随机 过 程 理论 和 数理 统计 学 方法 研究 随机 数据 序列 所 遵从 的 统计 规 
律 , 以 解决 实际 问题 。 

(7) 偏差 分 析 。 偏 差分 析 又 称 比较 分 析 , 它 是 对 差异 和 极端 特例 的 描述 ,用 于 揭示 事物 
偏离 常规 的 异常 现象 。 偏 差 检测 的 基本 方法 是 寻找 观测 结果 与 参照 值 之 间 有 意义 的 差别 。 

关联 分 析 、 聚 类 ,序列 分 析 等 是 描述 性 任务 ,回归 、 分 类 与 预测 是 预测 性 任务 ,挖掘 预测 
则 是 通过 对 样本 数据 (历史 数据 ) 的 输入 值 和 输出 值 进 行 关 联 性 的 学 习 , 得 到 预测 模型 ,再 利 
用 该 模型 对 未 来 的 输入 值 进 行 输出 值 预测 。 
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预测 方 法 与 训 玫 点 记 煌 C) 


9.1.1 预测 的 概念 及 分 类 


1. 预测 是 构造 和 使 用 模型 来 评估 无 样本 类 或 评估 给 定 样本 可 能 具有 的 属性 或 值 空间 

预测 方法 的 分 类 体系 如 下 : 

(1) 按 预测 技术 的 差异 性 分 类 ,可 分 为 定性 预测 技术 .定量 预测 技术 .定时 预测 技术 、 定 
比 预测 技术 和 评价 预测 技术 等 5 类 。 

(2) 按 预测 方法 的 客观 性 分 类 ,可 分 为 主观 预测 方法 和 客观 预测 方法 两 类 。 前 者 主要 
依靠 经 验 判断 ,后 者 主要 借助 数学 模型 。 

(3) 按 预 测 分 析 的 途径 分 类 ,可 分 为 直观 型 预测 方法 .时 间 序 列 预测 方法 .计量 经 济 模 
型 预测 方法 .因果 分 析 预 测 方法 等 。 

(4) 按 采 用 模型 的 特点 分 类 ,可 分 为 经 验 预测 模型 和 正规 的 预测 模型 。 后 者 包括 时 间 
关系 模型 .因果 关系 模型 .结构 关系 模型 等 。 

2. 预测 常用 方法 

通常 分 为 定性 分 析 与 定量 分 析 两 大 类 。 

1) 定性 分 析 预 测 法 

定性 分 析 预 测 法 是 指 预测 者 根据 历史 与 现实 的 观察 资料 ,依赖 个 人 或 集体 的 经 验 与 智 
慧 , 对 未 来 的 发 展 状 态 和 变化 趋势 作出 判断 的 预测 方法 。 包 括 相 关 类 推 法 .头脑 风暴 法 、 对 
比 类 推 法 、Delphi 法 等 。 

定性 预测 的 优点 是 注重 事物 发 展 在 性 质 方面 的 预测 ,具有 较 大 的 灵活 性 ,易于 充分 发 挥 
人 的 主观 能 动作 用 , 且 简 单 、. 迅 速 ,省 时 省 费用 。 

定性 预测 的 缺点 是 易 受 主观 因素 影响 ,依靠 人 的 经 验 和 主观 判断 能 力 , 从 而 易 受 人 的 知 
识 、 经 验 和 能 力 的 束缚 和 限制 ,尤其 是 缺乏 对 事物 发 展 作 数量 上 的 精确 描述 。 

2) 定量 分 析 预 测 法 

定量 分 析 预 测 法 是 依据 调查 研究 所 得 的 数据 资料 ,运用 统计 方法 和 数学 模型 ,近似 地 揭 
示 预 测 对 象 及 其 影响 因素 的 数量 变动 关系 ,建立 对 应 的 预测 模型 , 据 此 对 预测 目标 做 出 定量 
测算 的 预测 方法 。 定 量 分 析 预 测 法 通常 有 时 间 序 列 分 析 预 测 法 和 因果 分 析 预 测 法 。 

时 间 序 列 分 析 预 测 法 是 根据 连续 性 预测 原理 ,将 历史 观察 值 形成 时 间 数 列 ,对 预测 目标 
的 未 来 状态 和 发 展 趋势 做 出 定量 判断 的 预测 方法 。 时 间 序 列 分 析 预 测 法 包括 ARIMA 模型 
预测 .马尔 科 夫 预 测 .趋势 外 推 法 .指数 平滑 法 等 。 

因果 分 析 预 测 法 是 根据 因果 性 预测 原理 ,以 分 析 预 测 目标 同 其 他 相关 事件 及 现象 之 间 
的 因果 联系 ,对 市 场 未 来 状态 与 发 展 趋势 做 出 预测 的 定量 分 析 方法 。 因 果 分 析 预 测 法 包括 
回归 分 析 预 测 、 灰 色 预 测 、 投 入 产 出 分 析 预 测 法 等 。 

定量 预测 的 优点 是 注重 事物 发 展 在 数量 方面 的 分 析 , 重 视 对 事物 发 展 变化 的 程度 作 数 
量 上 的 描述 ,更 多 地 依据 历史 统计 资料 , 较 少 受 主观 因素 的 影响 。 

定量 预测 的 缺点 是 不 够 灵活 ,不宜 处 理 有 较 大 波动 的 资料 ,难于 预测 事物 的 变化 。 

预测 与 分 类 的 相同 点 是 两 者 都 需要 建立 模型 ,昌都 用 模型 来 估计 未 知 值 ,需要 注意 的 是 
预测 的 主要 估计 方法 是 回归 分 析 、 线 性 回归 和 非 线 性 回归 ,主要 是 用 于 估计 连续 值 , 即 量 化 
属性 值 。 而 不 同 点 是 ,分 类 主要 用 于 预测 类 标号 (分 类 属性 值 ), 即 预测 数据 对 象 的 离散 
类 别 。 


9.1.2 预测 性 能 评价 


选择 合适 的 预测 模型 ,对 于 提高 预测 精度 、 保 证 预测 质量 有 十 分 重要 的 意义 。 

1. 模型 选择 标准 

(1) 精度 原则 。 在 实际 应 用 中 ,往往 用 预测 的 准确 性 来 评价 一 个 模型 。 精 度 是 选择 模 
型 时 所 需 考虑 的 十 分 重要 的 因素 ,预测 模型 的 选择 是 用 预测 精度 对 各 种 模型 进行 比较 。 一 
般 认 为 增加 模型 的 显 含 变量 .采取 联 立方 程 可 以 提高 预测 精度 ,但 也 不 能 过 分 精确 化 ,否则 
模型 可 能 很 复杂 ,从 而 无 法 进行 实际 的 参数 估计 ,在 模型 的 精度 与 稳定 性 方面 应 适当 权衡 。 

(2) 简单 性 原则 。 对 于 任意 两 个 模型 , 若 都 能 同样 地 表达 所 研究 的 问题 ,具有 相同 的 精 
度 应 选择 较 小 模型 方程 .选择 较 简 单方 程 形式 和 较 少 的 经 济 变量 。 

(3) 费用 原则 。 预 测 的 准确 性 与 进行 预测 所 投入 的 人 力 、 物 力 、 财 力 密切 相关 ,高 的 预 
测 精度 常 伴随 着 高 的 费用 ,在 选择 计量 模型 时 应 对 提高 精度 所 获得 的 利益 及 由 此 所 花费 的 
代价 进行 权衡 ,有 时 为 较 低 费用 不 得 不 牺牲 一 些 精度 ,选择 较 简单 的 模型 。 

(4) 建 模 目的 原则 。 到 底 选择 哪 一 类 预测 模型 ,往往 取决 于 模型 将 具体 用 于 什么 目的 ， 
对 于 这 个 目的 ,模型 的 最 优 结构 是 什么 以 及 怎样 来 衡量 。 

2. 模型 的 预测 性 能 评价 

模型 的 预测 性 能 通常 决定 于 从 多 个 样本 中 抽样 检测 时 所 建 模型 的 评价 标准 , 即 要 比较 
目标 变量 的 预测 值 与 实际 值 ,并 从 这 些 比 较 中 计算 出 某 些 平均 误差 的 度量 。 

推荐 质量 的 评价 标准 主要 有 两 类 : 统计 精度 度量 方法 和 决策 支持 精度 度量 方法 。 统 计 
精度 度量 方法 中 的 平均 绝对 偏差 (Mean Absolute Error， MAE) 可 以 直观 地 对 推荐 质量 进 
行 度量 ,是 最 常用 的 一 种 度量 方法 。 平 均 绝对 偏差 (MAE) 通 过 计算 预测 的 用 户 评分 与 实际 
的 用 户 评分 之 间 的 偏差 度量 预测 的 准确 性 ,MAE 越 小 ,推荐 质量 越 高 。 决 策 支 持 精度 方法 
一 般 使 用 接受 操作 特征 来 度量 ,将 预测 看 作 一 个 布尔 操作 ,预测 结果 只 能 是 好 或 坏 。 

模型 的 预测 性 能 评价 的 影响 因素 主要 有 两 个 : 一 是 评价 模型 预测 性 能 的 测试 集 个 案 的 
预测 值 ; 二 是 模型 数据 所 需要 的 输入 值 与 测试 集 的 输出 预测 值 。 

一 般 情况 下 ,所 建立 的 模型 用 到 的 数据 观测 值 都 附 有 一 个 时 间 标 签 , 而 且 这 个 时 间 标 签 
给 出 了 数据 的 一 个 内 在 顺序 ,为 防止 出 现 不 可 靠 估 计 值 的 风险 ,可 以 用 交叉 检验 来 获取 评价 
指标 的 可 靠 估计 值 。 交 叉 检 验 过 程 的 观测 值 用 于 建立 模型 的 训练 集 的 时 间 越 久 , 估 计 值 的 
可 靠 性 越 强 ,通常 情况 下 选用 给 定 未 来 的 观测 值 会 更 容易 地 预测 过 去 的 观测 值 。 这 种 方法 
的 影响 因素 有 两 个 : 一 是 对 观测 值 的 抽样 方式 不 能 采用 随机 抽样 或 其 他 可 能 改变 时 间 序 列 
数据 的 时 间 标 签 的 过 程 ; 二 是 数据 集 的 选 定 ,不 能 选择 太 小 的 训练 集 , 因 为 它 不 仅 会 影响 模 
型 的 性 能 ,还 可 能 会 导致 模型 不 稳定 。 

当选 定 的 预测 模型 为 分 类 模型 时 ,评价 指标 用 误 分 率 或 者 正确 率 来 衡量 。 也 有 其 他 评 
价 预 测 分 类 模型 的 方法 ,如 精度 、 召 回 率 ( 真 正 率 、 灵 敏 度 ) , 误 分 类 代价 等 。 

分 类 模型 评估 主要 有 以 下 3 种 方法 。 

(1) Hold 方法 。 将 数据 分 成 训练 集 和 验证 测试 集 ,一 般 按 照 2 : 1 比例 划分 ,以 验证 集 
指标 进行 评估 。 

(2) 自助 法 (bootstrap)。 进 行 N 次 有 放 回 的 均匀 采样 ,获得 的 数据 集 作为 训练 集 , 原 
数据 集中 未 被 抽 中 的 其 他 观测 形成 验证 集 ,可 重复 下 次 来 计算 准确 率 。 
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(3) 交叉 验证 。 数 据 集 小 的 时 候 ,可 将 数据 集 分 成 天 个 不 相交 的 等 大 数据 子 集 , 每 次 
将 天 一 1 个 数据 集 作 为 训练 集 , 将 1 个 数据 集 作为 验证 (测试 ) 集 ,得 到 K 个 测试 精度 ,然后 
计算 K 个 测试 指标 的 平均 值 。 当 K 二 NN 时 ,为 留 一 交叉 验证 ; 当 每 个 部 分 中 保持 目标 变量 
的 分 布 时 ,为 分 层 交 叉 验 证 。 

3. 预测 的 一 般 步 骤 

(1) 筛选 预测 变量 ,选择 主要 因素 作为 预报 因子 ( 即 自 变量 ) 。 

(2) 收集 或 计算 数据 。 

(3) 异常 值 处 理 : 上 剔 出 ; 四 修补 。 

(4) 绘图 并 进行 分 析 ,观察 规律 ,选择 合适 的 预测 模型 进行 预测 。 

(5) 进行 误差 分 析 , 分 析 预 测 的 效果 ,对 预测 模型 给 出 评价 。 

需要 注意 的 是 ,有 多 种 评价 模型 的 标准 来 考查 计算 模型 的 预测 性 能 。 当 预测 用 于 不 同 
问题 的 模型 评价 时 ,模型 的 准则 也 会 不 同 。 当 然 ,每 一 个 评价 标准 也 不 是 毫 无 破绽 的 ,都 会 
有 影响 其 正确 率 的 因素 。 因 此 ,在 选择 模型 以 及 进行 评价 时 应 考虑 多 种 因素 。 


9.1.3 常用 的 预测 方法 


由 于 预测 的 对 象 .目标 .内 容 和 期 限 不 同 , 形 成 了 多 种 多 样 的 预测 方法 。 据 不 完全 统计 ， 
目前 世界 上 共有 近 千 种 预测 方法 ,其 中 较为 成 熟 的 有 150 多 种 ,用 得 最 为 普遍 的 有 10 多 种 。 
又 以 回归 分 析 预 测 .ARIMA 模型 预测 (时 间 序 列 模型 预测 ) 、 灰 色 预 测 、 马 尔 科 夫 预测 最 为 
常见 。 

1. 回归 分 析 预 测 法 

回归 分 析 预 测 法 是 在 分 析 自 变量 和 因 变 量 之 间 相 关 关 系 的 基础 上 ,建立 变量 之 间 的 回 
归 方 程 ,并 将 回归 方程 作为 预测 模型 ,根据 自 变量 在 预测 期 的 数量 变化 来 预测 因 变 量 关系 。 
它 是 一 种 具体 的 、 实 用 性 很 强 的 常用 预测 方法 。 

回归 分 析 预 测 法 有 多 种 类 型 ,依据 相关 关系 中 自 变量 的 个 数 不 同 分 类 ,可 分 为 一 元 回归 
分 析 预 测 法 和 多 元 回归 分 析 预 测 法 。 在 一 元 回归 分 析 预 测 法 中 , 自 变量 只 有 一 个 ; 而 在 多 
元 回归 分 析 预 测 法 中 , 自 变量 有 两 个 以 上 。 依 据 自 变量 和 因 变 量 之 间 的 相关 关系 不 同 , 可 分 
为 线性 回归 预测 和 非 线 性 回归 预测 。 

2. ARIMA 模型 预测 

ARIMA 模型 的 全 称 为 自 回归 移动 平均 模型 (Autoregressive Integrated Moving 
Average Model) ,是 由 博克 思 (Box) 和 人 詹金斯 (Jenkins) 于 20 世纪 70 年 代 初 提出 的 一 个 著 
名 的 时 间 序 列 预测 方法 ,又 称 为 box-jenkins 模型 。 其 中 , ARIMA(p,d,q) 称 为 差分 自 回归 
移动 平均 模型 ,AR 是 自 回归 ,p 为 自 回归 项 ,MA 为 移动 平均 ,q 为 移动 平均 项 数 ,d 为 时 间 
序列 成 为 平稳 时 所 作 的 差分 次 数 。 

ARIMA 模型 的 基本 思想 是 : 将 预测 对 象 随时 间 推 移 而 形成 的 数据 序列 视 为 一 个 随机 
序列 ,用 一 定 的 数学 模型 来 近似 描述 这 个 序列 。 这 个 模型 一 旦 被 识别 后 就 可 以 从 时 间 序 列 
的 过 去 值 及 现在 值 来 预测 未 来 值 。 

时 间 序 列 预测 法 是 通过 编制 和 分 析 时 间 序 列 ,根据 时 间 序 列 所 反映 出 来 的 发 展 过 程 . 方 
向 和 趋势 进行 类 推 或 延伸 ,借以 预测 下 一 段 时 间或 以 后 若干 年 可 能 达到 的 水 平 。 时 间 序 列 
适用 于 具有 明显 趋势 性 与 季节 性 的 数据 ,预测 未 来 较为 准确 ,时 间 序 列 中 的 指数 平滑 法 只 要 





有 上 期 实际 数 与 上 期 预测 值 就 可 以 计算 下 期 的 预测 值 ,是 一 种 短期 的 预测 方法 。 

ARIMA 模型 预测 的 基本 步骤 如 下 : 

(1) 根据 时 间 序 列 的 散 点 图 、 自 相关 函数 和 偏 自 相关 函数 图 以 ADF 单位 根 检 验 其 方 
差 .趋势 及 其 季节 性 变化 规律 ,对 序列 的 平稳 性 进行 识别 。 

(2) 对 非 平稳 序列 进行 平稳 化 处 理 。 如 果 数 据 序列 是 非 平稳 的 ,并 存在 一 定 的 增长 或 
下 降 趋 势 , 则 需要 对 数据 进行 差分 处 理 ; 如 果 数 据 存在 异 方差 , 则 需 对 数据 进行 技术 处 理 ， 
直到 处 理 后 的 数据 的 自 相关 函数 值 和 偏 相关 抑 数值 无 显著 地 异 于 零 。 

(3) 根据 时 间 序 列 模型 的 识别 规则 ,建立 相应 的 模型 。 若 平稳 序列 的 偏 相 关 函 数 是 截 
尾 的 ,而 自 相关 函数 是 拖 尾 的 ,可 断定 序列 适合 AR 模型 ; 若 平稳 序列 的 偏 相 关 函 数 是 拖 尾 
的 ,而 自 相关 函数 是 截 尾 的 , 则 可 断定 序列 适合 MA 模型 ; 若 平 稳 序列 的 偏 相 关 函 数 和 自 相 
关 函 数 均 是 拖 尾 的 , 则 序列 适合 ARIMA 模型 。 

(4) 进行 参数 估计 ,检验 是 否 具有 统计 意义 。 

(5) 进行 假设 检验 ,诊断 残 差 序 列 是 否 为 白 噪声 。 

(6) 利用 已 通过 检验 的 模型 进行 预测 分 析 。 

3. 灰色 预测 

灰色 预测 法 是 一 种 对 含有 不 确定 因素 的 系统 进行 预测 的 方法 。 灰 色 预 测 通过 鉴别 系统 
因素 之 间 发 展 趋势 的 相 异 程度 进行 关联 分 析 , 并 对 原始 数据 进行 生成 处 理 来 寻找 系统 变动 
的 规律 ,生成 有 较 强 规律 性 的 数据 序列 ,然后 建立 相应 的 微分 方程 模型 ,从 而 预测 事物 未 来 
发 展 趋势 的 状况 。 用 等 时 距 观 测 到 的 反应 预测 对 象 特征 的 一 系列 数量 值 构造 基色 预测 模 
型 ,预测 未 来 某 一 时 刻 的 特征 量 , 或 达到 某 一 特征 量 的 时 间 。 

与 时 间 序 列 分 析 、 多 元 回归 分 析 等 需要 较 多 数据 的 统计 模型 不 一 样 ,灰色 预测 模型 只 需 
要 较 少 的 观测 数据 即 可 。 因 此 ,对 于 只 有 少量 观测 数据 的 项 目 来 说 ,灰色 预测 是 一 种 有 用 的 
工具 ,在 用 于 不 确定 性 显著 和 缺乏 数据 的 数据 集中 应 用 时 准确 性 较 强 。 

4. 马尔 科 夫 预测 

马尔 科 夫 预测 技术 是 应 用 马尔 科 夫 链 的 基本 原理 和 方法 研究 分 析 时 间 序 列 的 变化 规 
律 ,并 预测 其 未 来 变化 趋势 的 一 种 技术 。 它 以 系统 状态 转移 图 为 分 析 对 象 , 对 服从 给 定 状态 
转移 率 、. 系 统 的 离散 稳定 状态 或 连续 时 间 变 化 状态 进行 分 析 。 

马尔 科 夫 预测 从 预测 点 的 出 发 ,考虑 决策 需要 来 划分 现象 所 处 的 状态 ,是 一 种 时 间 离 
散 、 状 态 离散 的 动力 学 模型 。 它 运用 了 状态 转移 概率 矩阵 ,完全 描述 了 所 研究 的 对 象 的 变化 
过 程 , 因 此 对 于 长 期 发 展 数据 或 波动 性 较 大 的 数据 进行 预测 较为 准确 。 

下 面 主要 围绕 灰色 预测 GM(1,1) 模 型 及 其 应 用 ,马尔 科 夫 预 测 及 应 用 进行 曾 述 。 





9.2 灰色 预测 


灰色 系统 理论 认为 ,对 既 含有 已 知 信息 又 含有 未 知 或 非 确定 信息 的 系统 进行 预测 ,是 对 
在 一 定 方位 内 变化 的 ,与 时 间 有 关 的 灰色 过 程 的 预测 。 尽 管 过 程 中 所 显示 的 现象 是 随机 的 、 
杂乱 无 章 的 ,但 毕竟 是 有 序 的 有 界 的 ,因此 这 一 数据 集合 具备 潜在 的 规律 。 灰 色 预 测 就 是 
利用 这 种 规律 建立 灰色 模型 ,对 灰色 系统 进行 预测 。 

灰色 系统 是 介 于 白色 系统 和 黑色 系统 之 间 的 一 种 系统 ,产生 于 控制 理论 的 研究 中 ,以 
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“部 分 信息 已 知 、 部 分 信息 未 知 ” 的 “小 样本 ”“ 贫 信息 ”不 确定 型 系统 为 研究 对 象 。 白 色 系统 
是 指 一 个 系统 的 内 部 特征 是 完全 已 知 的 , 即 系统 的 信息 是 完全 充分 的 。 而 黑色 系统 是 指 一 
个 系统 的 内 部 信息 对 外 界 来 说 是 一 无 所 知 的 ,只 能 通过 它 与 外 界 的 联系 来 加 以 观测 研究 。 
灰色 系统 内 的 一 部 分 信息 是 已 知 的 , 另 一 部 分 信息 是 未 知 的 ,系统 内 各 因素 间 具 有 不 确定 的 
关系 。 区 别 白色 和 灰色 系统 的 重要 标志 是 系统 各 因素 间 是 否 有 确定 的 关系 。 

灰色 预测 方法 是 以 灰色 模型 (G,M) 为 核心 的 模型 体系 来 进行 定量 分 析 的 ,从 而 可 以 对 
系统 行为 特征 的 发 展 变化 规律 进行 估计 预测 ,也 可 以 对 行为 特征 的 异常 情况 发 生 的 时 刻 进 
行 估算 ,并 对 在 特定 时 区 内 发 生 事 件 的 未 来 时 间 发 布 情况 作 研究 等 。 


9.2.1 灰色 预测 原理 及 应 用 场景 


1. 灰色 预测 的 类 型 ( 见 表 9-1) 

(1) 数列 预测 。 即 对 某 个 系统 或 因素 发 展 变化 到 未 来 某 个 时 刻 出 现 的 数量 大 小 进行 预 
测 ,是 “定时 求 量 ”。 

(2) 灾变 预测 。 即 通过 灰色 模型 预测 异常 值 出 现 的 时 刻 , 预 测 异 常 值 什么 时 候 出 现在 
特定 时 区 内 ,是 “定量 求 时 ”。 

(3) 系统 预测 。 通 过 对 系统 行为 特征 指标 建立 一 组 相互 关联 的 灰色 预测 模型 ,预测 系 
统 中 众多 变量 间 的 相互 协调 关系 的 变化 。 

表 9-1 主要 灰色 预测 算法 及 使 用 场景 


预测 方法 模型 基本 算法 适用 场景 


z=[x 01), 20 C2) 2 REO Ct 1 0 nt sm)] 对 某 个 系统 或 因素 发 


数列 预测 2 展 变化 到 未 来 某 个 时 
预测 数列 是 ze Cn 十 mw) ,由 原始 数列 累加 而 成 的 


对 某 个 时 刻 是 否 发 生 
某 种 “突变 ”, 或 某 个 











r= [(“- 二 je + | 二 二 | Dar + Bop" 十 D， 














类 这 针 测 第 一 项 为 灰色 模型 GM(1,1) 部 分 ,也 可 以 认为 是 趋势 项 ; 后 三 项 为 | 异常 值 可 能 在 某 个 时 
ARMA 模型 部 分 ,也 可 以 认为 是 随机 波动 项 间 出 现 等 进行 预测 
y=f(zw rw Tm ) 十 c 对 某 个 系统 中 一 些 变 

系统 预测 线性 关系 : ?一 a 十 bo zw 十 byw 十 十 bw Tw 十 c 量 或 因素 间 相互 协调 
趋势 预测 模型 一 一 准确 预测 变量 的 变化 趋势 ; 发 展 变 化 的 大 小 及 其 
回归 模型 预测 一 一 准确 描述 预测 变量 与 影响 因素 之 间 的 关系 数量 进行 预测 





上 述 灰色 预测 方法 的 共同 特点 如 下 : 

(1) 允许 少量 数据 预测 。 

(2) 允许 对 灰 因果 律 事件 进行 预测 。 例 如 , 灰 因 白果 律 事 件 : 在 粮食 生产 预测 中 ,影响 
粮食 生产 的 因子 很 多 ,多 到 无 法 枚 举 , 故 为 灰 因 ; 然而 粮食 产量 却 是 具体 的 , 故 为 白果 ,粮食 
预测 即 为 灰 因 白 果 律 事件 预测 。 白 因 灰 果 律 事件 : 在 开发 项 目前 景 预测 时 ,开发 项 目的 投 
入 是 具体 的 ,为 白 因 ; 而 项 目的 效益 暂时 不 太 清 楚 ,为 灰 果 , 项 目前 景 预测 即 为 灰 因 白果 律 
事件 预测 。 

(3) 具有 可 检验 性 ,具体 包括 : 建 模 可 行 性 的 级 比 检验 (事前 检验 ) , 建 模 精度 检验 ( 模 
型 检验 ) ,预测 的 滚动 检验 (预测 检验 ) 。 





灰色 模型 (G,M) 是 将 “随机 过 程 ” 当 作 灰 色 过 程 ,随机 变量 当 作 灰 变量 。 灰 色 预 测 中 的 
灰 是 指 信息 不 完全 ,基于 灰色 动态 GM(n,h) 模 型 的 预测 称 为 灰色 预测 。 灰 色 系 统 建立 的 
GM(n,h) 模 型 是 微分 方程 的 时 间 连 续 函 数 模型 ,其 中 表示 微分 方程 的 阶 数 ,h 表示 变量 的 
个 数 。 灰 色 模 型 是 利用 离散 随机 数 经 过 生成 变 为 随机 性 被 显著 削弱 而 且 较 有 规律 的 生成 
数 , 建 立 起 的 微分 方程 形成 的 模型 ,这 样 便于 对 变化 过 程 进行 研究 和 描述 。 

2. GM(1,1) 模 型 

GM(1,1) 模 型 是 指 一 阶 一 个 变量 的 微分 方案 预测 模型 ,是 一 阶 单 序列 的 线性 动态 模 
型 ,用 于 时 间 序 列 预 测 的 离散 形式 的 微分 方程 模型 。 





模型 符号 含义 为 : 
G M (1， 1 
人 + 个 个 
Grey Model 1 阶 方程 1 个 变量 


设 时间 序 列 Xo 有 守 个 观察 值 ,Xo2 一 {zo2 (1),zo (2)，…zo (2)} ,为 了 使 其 成 为 有 
规律 的 时 间 序 列 数据 ,对 其 作 一 次 累加 生成 运算 , 即 令 


XV(1) = 六 zw (n) 
从 而 得 到 新 的 生成 数列 XD ,Xo 一 {zm (lzo(02) xzo (n)}, 称 
ZO(R) 十 az (RE) 一 已 
为 GM(1,1) 模 型 的 原始 形式 。 
新 的 生成 数列 一般 近 似 地 服从 指数 规律 。 生 成 的 离散 形式 的 微分 方程 具体 的 形 
式 为 
dz 


Tar=u 


dt 
即 表 示 变 量 对 于 时 间 的 一 阶 微分 方程 是 连续 的 。 求 解 上 述 微 分 方程 , 解 为 


z(t) 一 ce 十 刀 
a 


当 4=1 时 ,x(0)==x(1), 即 c=zx(1) 六, 则 可 根据 上 述 公式 得 到 离散 形式 微分 方程 的 
具体 形式 为 














z(D) = (2) je + 
a a 


其 中 ,az 项 中 的 工 为 昱 的 背景 值 ,也 称 初始 值 ; a\ 是 待 识别 的 灰色 参数 ,a 为 发 展 系数 , 反 
映 z 的 发 展 趋势 ; u 为 灰色 作用 量 , 反 映 数 据 间 的 变化 关系 。 











按 白化 导数 定义 有 
dz lim + A — z(t) 
dt ao Ai 
显然 ,当时 间 密 化 值 定义 为 1,At 一 1 时 , 则 上 式 可 记 为 
dz 


二 一 lim(Cz(G 十 At) 一 ZiD)) 
dr Ar1 





这 表明 尝 是 一 次 累 减 生成 的 ,因此 该 式 可 以 改写 为 
至 = zcTD 一 zm 人 四 
当 A: 足够 小 时 ,变量 二 从 z(O 到 z(t 十 AD) 是 不 会 出 现 突变 的 ,所 以 取 z(0) 与 x(G 十 AD) 
的 平均 值 作为 当 At 足够 小 时 的 背景 值 , 即 zxo = 立 [zw(COTzoCe+D]。 紧 邻 均值 
MEAN 生成 序列 ,将 其 值 带 入 式 子 ,整理 得 
zt 十 1) 一 一 了 [ze (oO 十 zoC 十 1D)]+w( 此 为 GMC1,1) 模型 的 均值 形式 ) 


由 其 离散 形式 可 得 到 如 下 和 矩阵: 
ce 一 去 [zw(D +z (2)] 
| 一 去 [zw(2) 十 ze (3)] ee 
on 


一 去 [zo or 一 | 


令 
Y = [ze (2),z@ 3), 70 (nT 
一 去 [zw(D 二 ze (2)] 1 
a 
二 是 《1) 《1)》 
Bt)] 1 上 


一 去 [zw 一 D+zmco] 
a= (a za)7 
称 Y 为 数据 向 量 ,B 为 数据 矩阵 ,a 为 参数 向 量 , 则 上 式 可 简化 为 线性 模型 ; 
由 最 小 二 乘 估计 方法 得 四 
Pe (= (BTB)-:BTY 
上 式 即 为 GM(1,1) 参 数 ex 的 矩阵 辨识 算式 , 式 中 的 (BIB) :BITY 是 数据 矩阵 B 的 广义 


逆 矩 阵 。 
将 求 得 的 ex 值 代 入 征 分 方程 的 解 式 , 则 


= (en | + 二 
其 中 ,上 式 是 GM(1,1) 模 型 的 时 间 响应 函数 形式 ,将 其 离散 化 得 
Ab(i = (eo 至 js 十 二 


对 序列 2? (4) 再 作 累 减 生成 可 进行 预测 , 即 








SOD= = 
ee 过 业 : _ ea Verecr-D 
二 (: (1) ja e)e 


上 式 便 是 GM(1,1) 模 型 预测 的 具体 计算 式 。 

GM(1,1) 模 型 的 检验 包括 残 差 检 验 、 关 联 度 检验 、 后 验 差 检验 三 种 形式 。 

每 种 检验 对 应 不 同 功能 : 残 差 检 验 属于 算术 检验 ,对 模型 值 和 实际 值 的 误差 进行 逐 点 
检验 ; 关联 度 检 验 属 于 几何 检验 范围 ,通过 考察 模型 曲线 与 建 模 序列 曲线 的 几何 相似 程度 
进行 检验 ,关联 度 越 大 ,模型 越 好 ; 后 验 差 检验 属于 统计 检验 ,对 残 差 分 布 的 统计 特性 进行 
检验 ,用 于 衡量 灰色 模型 的 精度 。 

若 用 原始 经 济 时 间 序 列 建立 的 GM(1 ,1) 模 型 检验 不 合格 或 精度 不 理想 时 ,要 对 建立 的 
GM(1,1) 模 型 进行 残 差 修正 或 提高 模型 的 预测 精度 。 修 正 的 方法 是 建立 GM(1,1) 的 残 差 
模型 。 

GM(n,h) 模 型 是 微分 方程 模型 ,可 用 于 对 描述 对 象 作 长 期 、 连 续 , 动 态 的 反映 。 从 原则 
上 讲 , 某 一 灰色 系统 无 论 内 部 机 制 如 何 ,只 要 能 将 该 系统 原始 表征 量 表示 为 时 间 序 列 z(0) (7)， 
并 有 zx(0) (2) 二 0, 即 可 用 GM 模型 对 系统 进行 描述 。 

灰色 预测 模型 所 需要 的 数据 量 比较 少 、 预 测 比较 准确 精度 较 高 ,样本 分 布 不 需要 有 规 
律 性 .计算 简便 ,检验 方便 ,适用 于 中 长 期 预测 。 灰 色 预 测 在 工业 农业、 商业 环境 、 社 会 、 军 
事 等 领域 中 都 有 广泛 的 应 用 。 


9.2.2 ”灰色 预测 实例 


【 例 9-1】 若 一 个 公司 1999 一 2008 年 的 利润 为 : [89677, 99215, 109655, 120333， 
135823,159878,182321,209407,246619,300670], 现 根据 此 几 年 的 数据 预测 该 公司 未 来 几 
年 的 利润 情况 ,以 此 来 判断 公司 未 来 的 发 展 走势 ,以 及 公司 在 10 年 后 可 以 取得 多 少 利润 
收入 。 

(1) 步骤 

首先 ,需要 对 原始 数据 进行 累加 ,并 构建 累加 矩阵 B 与 常数 变量 ,在 灰色 模型 构建 过 程 
中 求解 出 灰 参 数 。 其 次 ,将 求解 出 来 的 灰 参数 代入 已 经 构建 好 的 预测 模型 进行 预测 。 最 后 ， 
将 原始 数据 与 预测 数据 进行 比较 ,以 此 来 判断 构建 模型 的 优 劣 。 

(2) 数学 建 模 过 程 

构建 GM(1,1) 模 型 , 即 构建 一 个 累加 矩阵。 构建 后 ,将 后 面 数据 依次 代入 累加 和 矩阵 , 求 
出 预测 值 : 





XY 一 〈(Z@(1) rz (2) ,7 (n)) 
作 1-AGO, 得 
XY = (zz (2) ,7 (n)) 
= 《zDD 让 a (2 (R=) 
则 GM(1,1) 模 型 相应 的 微分 方程 为 


-GD 
dz CD 


di 





式 中 ,a 为 发 展 灰 数 。 





设 一 (azo7 , 按 最 小 二 乘法 得 到 
&= (BITB)-BTT 


设 
一 0.5(zo (1) 十 zo (2)) 1 
B= 一 0.5(z (2)++ zx (3)) 1 
= m= 1 
2 
元 39 
m=| ， 
OIC 
求解 方程 ,得 到 





二 (ze < ” + 
最 后 ,用 计算 出 来 的 模型 预测 后 10 年 的 数据 。 
(3) 实现 过 程 
程序 中 虽然 仅仅 需要 预测 该 公司 10 年 以 后 的 情况 ,但 数据 可 修改 ,可 以 把 (x 十 10) 里 的 
10 改 成 其 他 需要 的 数字 。 具 体 实 现 过 程 如 下 : 


Et clc,clear; 

2 syms ab; 

FE c=[a b] 3 

4. A=[89677,99215,109655,120333,135823,159878,182321,209407,246619, 300670]; 
5. B- cumsum(R) s 原 始 数据 累加 

6. n=length(A) 

7. for i=1:(n-1) 

8 C(i)= (B(i)+B(i+1))/2; s 生 成 累加 矩阵 

9. end 

10. 名 计算 待定 参数 的 值 

11. D=A;D(1)=[]; 

12. D=D'; 

13. E=[-C;ones(1,n-1)]; 

14. c=inv(E*E')*E*D; 

15. c=c'; 

16. a=c(l1);b=c(2); 

17. s 预 测 后 续 数 据 

18. E=[];F(1)=A(D); 

19. for i=2: (n+10) s 只 推测 后 10 个 数据 ,可 以 从 此 修改 
20. F(i)= (A(1)-b/a) /exp(a* (i-1))+b/a; 

21. end 

22. 6G-[];6(D)=A(D); 

23. for i=2: (n+10) s 只 推测 后 10 个 数据 ,可 以 从 此 修改 
24. G(i)=F(i)-F(i-1); s 得 到 预测 出 来 的 数据 

25. end 


26. tl- 1999:2008; 
27. t2=1999:2018; s 多 10 组 数据 


29. h=plot (tl,A,'o',t2,6,'-'); 原始 数据 与 预测 数据 的 比较 
30. set(h, 'LineWidth',1.5); 


图 9-1 所 示 为 运行 结果 。 其 中 , 圈 中 表示 的 是 原始 数据 ,而 线 是 预测 数据 的 拟 合 结果 。 
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图 9-1 灰色 预测 拟 合 效果 图 


通过 图 9-1 所 示 的 预测 数据 与 原始 数据 的 比较 ,使 用 灰色 预测 对 数据 进行 建 模 后 ,建立 
好 的 灰色 预测 模型 与 原始 数据 基本 一 致 (图 9-1 中 的 圆圈 和 直线 基本 拟 合 ) ,构建 好 的 模型 
基本 能 解释 1999 一 2008 年 的 数据 。 在 后 面 的 2009 一 2018 年 10 年 的 数据 情况 走势 呈现 上 
升 趋势 ,公司 的 利润 到 2018 年 可 达到 120 万 元 以 上 。 


9.3 马尔 科 夫 预测 


马尔 科 夫 预测 是 一 种 基于 马尔 科 夫 链 预 测 事件 发 生 的 概率 方法 , 即 根据 事件 的 目前 状 
况 预 测 其 将 来 各 个 时 刻 或 时 期 变动 状况 的 一 种 预测 方法 。 马 尔 科 夫 是 俄国 的 一 位 著名 数学 
家 (1856 一 1922 年 ) ,20 世纪 初 他 在 研究 中 发 现 . 自然界 中 有 一 类 事物 的 变化 过 程 仅 与 事物 
的 近期 状况 有 关 , 而 与 事物 的 过 去 状态 无 关 。 针 对 这 种 情况 ,他 提出 了 马尔 科 夫 预测 方法 。 
该 方法 具有 和 较 高 的 科学 性 ,准确 性 和 适应 性 ,在 现代 预测 方法 中 占有 重要 地 位 。 


9.3.1 马尔 科 夫 预测 原理 


马尔 科 夫 预测 公式 的 基本 原理 是 利用 现状 之 间 的 状态 概率 矩阵 预测 事件 发 生 的 状态 及 
其 发 展 变化 趋势 。 

1. 马尔 科 夫 预测 公式 

在 自然 界 和 人 类 社会 中 ,事物 的 变化 过 程 可 分 为 两 类 : 一 类 是 确定 性 变化 过 程 ; 另 一 
类 是 不 确定 性 变化 过 程 。 确 定性 变化 过 程 是 指 事物 的 变化 是 由 时 间 唯 一 确定 的 , 即 对 给 定 
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的 时 间 , 人 们 事先 能 够 确切 地 知道 事物 变化 的 结果 。 因 此 ,变化 过 程 可 用 时 间 的 函数 来 描 
述 。 不 确定 性 变化 过 程 是 指 对 给 定 的 时 间 , 事 物 变 化 的 结果 不 止 一 个 ,事先 人 们 不 能 肯定 哪 
个 结果 一 定 发 生 , 即 事物 的 变化 具有 随机 性 。 这 样 的 变化 过 程 称 为 随机 过 程 。 一 个 随机 试 
验 的 结果 有 多 种 可 能 性 ,在 数学 上 用 一 个 随机 变量 (或 随机 向 量 ) 来 描述 。 在 许多 情况 下 ,人 
们 不 仅 需要 对 随机 现象 进行 一 次 观测 ,而 且 要 进行 多 次 ,甚至 接连 不 断 地 观测 它 的 变化 过 
程 。 这 就 要 研究 无 限 多 个 , 即 一 簇 随机 变量 。 随 机 过 程 理论 就 是 研究 随机 现象 变化 过 程 的 
概率 规律 性 的 。 客 观 事物 的 状态 不 是 固定 不 变 的 , 它 可 能 处 于 这 种 状态 ,也 可 能 处 于 那 种 状 
态 ,往往 条 件 变化 ,状态 也 会 发 生变 化 状态 即 为 客观 事物 可 能 出 现 或 存在 的 状况 ,用 状态 变 


量 表 示 状 态 : 
二 二 让 主 sd 
t= 1,2, 

它 表示 随机 运动 系统 ,在 时 刻 1(1 二 1,2,…) 所 处 的 状态 i(i 二 1,2,…,N)。 

状态 转移 : 客观 事物 由 一 种 状态 到 另 一 种 状态 的 变化 。 设 客观 事物 有 El ,EE;,E;,…， 
Ew 共 N 种 状态 ,每 次 只 能 处 于 一 种 状态 ,每 一 状态 都 具有 N 个 转向 (包括 转向 自身 ), 即 由 
于 状态 转移 是 随机 的 。 因 此 ,必须 用 概率 来 描述 状态 转移 可 能 性 的 大 小 ,将 这 种 转移 的 可 能 
性 用 概率 描述 ,就 是 状态 转移 概率 。 

概率 论 中 的 条 件 概 率 P(A1B) 就 表达 了 由 状态 B 向 状态 A 转移 的 概率 ,简称 为 状态 转 
移 概率 。 对 于 由 状态 E; 转移 到 状态 E; 的 概率 , 称 它 为 从 i 到 j 的 转移 概率 , 即 

Ps = P(E,|E:)= P(E;:—>E,)= P(zm = j|zx, = i) 

它 表示 由 状态 E; 经 过 一 步 转移 到 状态 EE; 的 概率 。 

状态 转移 概率 矩阵 具有 如 下 特征 : 


0 委 Pi 过 1，ij =1,2,…,N 
N 
Pi =1, i=1,2,%,N 
j=1 
Pi Pi, Pin 
六 二 Ps Fe Pon 


Pm PN * Pnn 

通常 称 和 矩阵 已 为 状态 转移 概率 矩阵 ,没有 特别 说 明 步 数 时 ,一 般 均 为 一 步 转移 概率 矩 
阵 。 和 矩阵 中 的 每 一 行 称 为 概率 向 量 。 状 态 转 移 概 率 的 估算 方法 有 主观 概率 法 和 统计 估算 法 
两 种 。 

状态 转移 概率 矩阵 完全 描述 了 所 研究 对 象 的 变化 过 程 。 正 如 前 面 所 指出 的 ,上 述 矩 阵 
为 一 步 转移 概率 和 矩阵。 对 于 多 步 转移 概率 矩阵 ,可 按 如 下 定义 解释 : 

若 系统 在 时 刻 mw 处 于 状态 i, 经 过 n 步 转 移 ,在 时 刻 4, 处 于 状态 。 那 么 ,根据 这 种 转 
移 的 可 能 性 的 数量 描述 称 为 步 转移 概率 。 记 为 

Pp(z = #2 =2)= PP 

并 令 


Pe PR =“ PR 
Be = 于 PS a 
PR PR … PNR 
称 P" 为 n 步 转移 概率 和 矩阵 。 

多 步 转移 概率 矩阵 , 除 具 有 一 步 转移 概率 矩阵 的 性 质 外 ,还 具有 以 下 的 性 质 。 

(1) Pom 一 Po-DP 

(2) PY =P" 

记 4 为 过 程 的 开始 时 刻 ,P;(0) 二 {(X。 二 和 (4) 二 让), 则 称 P(0)==(Pi(0),P,(0),…， 
Pn(0)) ,为 初始 状态 概率 向 量 。 已 知 马尔 科 夫 链 的 转移 矩阵 P” 二 P 轨 ,以 及 初始 状态 概率 
向 量 P(0) , 则 任 一 时 刻 的 状态 概率 分 布 也 就 确定 了 。 

对 k& 宇 1, 记 Pi(k) 二 Pt{xi 二 i}, 则 由 全 概率 公式 有 

Pi(k) = DP, (MPP, i=1,2,.,N,k>1 


若 记 向 量 P(k) 二 (PCD ,Ps Ck) ,2 Pw Ch) ) , 则 上 式 可 写 为 P(&)==P(0)P% =P(0)P*， 
由 此 可 得 P(A) 王 PC 一 1)P。 

在 马尔 科 夫 链 中 ,已 知 系统 的 初始 状态 和 状态 转移 概率 矩阵 ,就 可 推断 出 系统 在 任意 时 
刻 可 能 所 处 的 状态 。 

马尔 科 夫 预测 模型 对 数据 的 基本 要 求 是 ,数据 必须 具有 一 定 的 稳定 性 ,因此 必须 有 足够 
的 统计 数据 才能 保证 预测 的 精度 与 准确 性 ,这 也 是 马尔 科 夫 预测 模型 用 于 预测 的 一 个 最 为 
基本 的 条 件 。 

当 用 马尔 科 夫 链 来 描述 实际 问题 时 ,首先 要 确定 它 的 状态 空间 及 参数 集合 ,然后 确定 它 
的 一 步 转移 概率 。 关 于 这 一 概率 的 确定 ,可 以 由 问题 的 内 在 规律 得 到 ,也 可 以 由 过 去 经 验 给 
出 ,还 可 以 根据 观测 数据 来 估计 。 

2. 马尔 科 夫 预测 特性 

(1) 过 程 的 离散 性 : 系统 的 发 展 在 时 间 上 可 离散 化 为 有 限 或 可 列 状 态 。 

(2) 过 程 的 随机 性 : 系统 内 部 从 一 个 状态 转移 到 另 一 个 状态 是 随机 的 ,转变 可 能 性 由 
系统 内 部 的 历史 的 概率 值 表示 。 

(3) 过 程 的 无 后 效 性 : 系统 内 部 的 转移 概率 值 与 当前 状况 有 关 , 而 与 以 前 的 状态 无 关 ， 
凡是 满足 以 上 个 特点 的 系统 , 均 可 用 马尔 科 夫 链 研究 其 过 程 ,并 可 预测 未 来 。 

3. 马尔 科 夫 预测 应 用 

马尔 科 夫 预测 方法 已 被 广泛 应 用 于 各 行 各 业 中 。 

如 在 对 股票 价格 的 预测 方面 ,可 利用 马尔 科 夫 链 这 个 工具 对 股票 的 价格 (指数 ) 的 走势 
进行 预测 。 将 股票 价格 按照 具体 上 涨幅 度 和 下 降 的 幅度 分 为 下 跌 、 持 平 上 涨 三 个 状态 ,将 
前 一 阶段 的 某 一 支 或 某 几 支 股票 的 价格 走势 作为 训练 集 来 构建 马尔 科 夫 模型 ,根据 股价 的 
三 个 状态 出 现 的 频率 构造 转移 矩阵 ,将 具体 的 某 一 个 交易 日 的 股票 价格 作为 初始 的 概率 分 
布 ,从 而 来 进行 未 来 的 股票 价格 走势 的 预测 。 

将 马尔 科 夫 模型 应 用 于 教师 的 教学 评价 \ 师 资 队 伍 建设 和 度量 学 生 的 解决 能 力 等 教育 
问题 。 首 先 将 考生 成 绩 记 为 优 、 良 、 中 、 及 格 、 不 及 格 等 几 个 状态 ,然后 统计 学 生 从 一 时 刻 到 





下 一 时 刻 成 绩 的 转移 次 数 ,从 而 构造 转移 矩阵 ,最 后 得 出 预测 。 

在 农业 方面 , 先 将 农业 收成 变化 分 为 丰收 、 平 收 和 歉收 三 个 状态 ,然后 根据 往年 的 收成 
构建 无 穷 多 次 状态 转移 后 所 得 到 的 状态 概率 (终极 状态 概率 ) ,在 该 地 区 收成 变化 的 无 穷 多 
次 状态 转移 过 程 中 可 以 看 出 三 个 状态 出 现 的 概率 ,最 后 得 出 预测 方向 。 


9.3.2 马尔 科 夫 预测 实例 


【 例 9-2】 某 计 算 机 机 房 的 一 台 计 算 机 经 常 出 现 故 障 , 研 究 者 每 隔 15 分 钟 观察 一 次 计 
算 机 的 运行 状态 ,收集 了 24 小 时 的 数据 ( 共 作 97 次 观察 )。 用 1 表示 正常 状态 ,用 0 表示 不 
正常 状态 ,所 得 的 数据 序列 如 下 : 

11100100111111 10011110111111001111111110001101101 

11101101101011110111011110 1111110011011111 100111 

求 其 一 步 转移 概率 ,并 分 析 预 测 计算 机 运行 状态 。 

解 : 设 义 ,(n 二 1,…，,97) 为 第 个 时 段 的 计算 机 状态 ,可 以 认为 它 是 一 个 马 氏 链 , 状 态 
空间 E=={0,1) ,编写 如 下 Matlab 程序 。 


al= "1110010011111110011110111111001111111110001101101'; 
a2= "111011011010111101110111101111110011011111100111' ? 
a=[ al a2]; 

£00= length (findstr ('00',a)) 

£01= length (findstr ('01',a)) 

£10= length (findstr ('10',a)) 

£11= length (findstr ('11',a)) 


可 把 上 述 数据 序列 保存 到 纯 文 本 文件 datal. txt 中 ,存放 在 Matlab 下 的 work 子 目 录 
中 ,编写 程序 如 下 : 


Clc,clear 
clc,clear 
-209- 
format rat 
fid= fopen('datal.txt', 'r'); 
a=[]; 
while (~ feof (fid)) 
a=[a fget]l (fid)]; 
end 
for i=0:1 
for j=0:1 
s=[int2str (i), int2str (j)]; 
£f(i+1,j+1)=1length (findstr (s,a)); 
end 
end 
fs= sum(f£'); 
for i=1:2 
£(i,:)=£(i,:) /fs(i); 
end 
基 





求 得 96 次 状态 转移 的 情况 是 : 

0 0 一 ,8 次 ; 10 一 ,18 次 ; 

01 一 ,18 次 ; 11 一 ,52 次 。 

因此 ,一 步 转移 概率 可 用 频率 近似 地 表示 为 




















Po = P{Xon = 0|X, ~ Bs 下 
Pa = PtXon = 1|X, =0~ gis- I 
Pr = P{Xon = 0|X, = 1}~ ee 二 
Py = = 1 = 于 


由 此 分 析 可 知 ,在 97 次 观察 中 ,连续 不 正常 状态 概率 可 用 频率 约 0. 31, 正 常 状 态 概 率 
可 用 频率 约 0. 74, 从 正常 状态 到 不 正常 状态 和 从 不 正常 状态 到 正常 状态 ,可 用 频率 分 别 为 
0.26、0.69。 不 正常 的 状态 近 半 ,应 及 时 维护 。 

【 例 9-3〗 市 场 占有 率 预 测 。 设 某 地 有 1600 户 居民 , 某 产品 只 有 甲乙 、 丙 3 厂家 在 该 
地 销售 。 经 调查 ,8 月 买 甲乙 、 丙 三 厂 的 户 数 分 别 为 480、320、800。9 月 里 , 原 买 甲 的 有 
48 户 转 买 乙 产品 ,有 96 户 转 买 册 产品 ; 原 买 乙 的 有 32 户 转 买 甲 产品 ,有 64 户 转 买 丙 产 品 ， 
原 买 两 的 有 64 户 转 买 甲 产 品 , 有 32 户 转 买 乙 产品 。 用 状态 1.2、3 分 别 表 示 甲 、 乙 \ 丙 三 厂 ， 
试 求 : 

(1) 转移 概率 矩阵 。 

(2) 9 月 市 场 占 有 率 的 分 布 。 

(3) 12 月 市 场 占有 率 的 分 布 。 

解 : (1) E{1,2,3) ,状态 1.2、3 分 别 表示 甲乙 、 丙 的 用 户 。 





























480 一 48 一 96 48 96 _ 
Pi 480 0.7， Pi 4180 0.1， Ps A80 0.2 
32 320 一 32 一 64 64 _ 
Ps 320 0.1， P,, 320 0.7， P: 320 0.2 
= = 32 -- _ 800 一 64 一 32 _ 
Pa = 305 =0.08, Po 一 800 一 0.04， Pa 0 0. 88 
一 步 转移 概率 矩阵 为 


O77 Di .2 
he 商学 oa | 
0.08 0.04 0.88 
(2) 将 8 月 甲乙 、 丙 的 户 数 除 以 1600, 得 初始 概率 分 布 ( 即 初始 市 场 占 有 率 ) 
P(0) = (pl? ,pl ,p02) = (60.3 0.2 0.5) 
所 以 9 月 市 场 占有 率 分 布 为 
人 也 
P()= P(NPL, = 03 42 onle 1 (4 se | 
0.08 0.04 0.88 
=(0.27 0.19 0:54) 
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(3) 12 月 份 市 场 占有 率 分 布 为 
P(4)= P(O0)P! 
07 O02Y 
= 03 v2 nole 0.7 | 
0.08 0.04 0.88 
= (0.2319 0.1698 0.5983) 


9.4 离 群 点 诊断 


9.4.1 离 群 点 的 定义 ,来 源 及 分 类 


1. 离 群 点 的 概念 

离 群 点 是 与 数据 集中 其 余部 分 不 服从 相同 统计 模型 的 数据 。 离 群 点 是 一 个 数据 对 象 ， 
它 明显 不 同 于 其 他 数据 对 象 ,好 像 它 是 被 其 他 不 同 “y 
的 机 制 产生 似 的 。 如 图 9-2 中 的 Cluster 3, 只 包括 Cluster2 
一 个 点 ,可 以 认为 是 这 群 数据 的 离 群 点 。 (es, 

2 离 群 点 的 来 源 

(1) 客体 的 异常 行为 导致 ,如 欺诈 .和 人 侵 ,不 寻 < 
常 的 实验 结果 。 Cluster 1 Coiter4 

(2) 数据 测量 和 收集 误差 .度量 或 执行 错误 所 
导致 的 。 例 如 ,一 个 人 的 年 龄 为 一 999 可 能 是 由 于 
对 年 龄 的 默认 设置 所 产生 的 。 

(3) 数据 变量 内 在 特性 引起 。 例 如 ,顾客 新 的 购买 模式 ,基因 突 变 等 ;一 个 公司 的 首席 
执行 官 的 工资 远 远 高 于 公司 其 他 雇员 的 工资 ,也 可 成 为 一 个 离 群 点 。 

3。 离 群 点 的 诊断 

许多 数据 挖掘 算法 试图 使 离 群 点 的 影响 最 小 化 ,或 者 排除 它们 ,但 由 于 一 个 人 的 “噪声 ” 
可 能 是 另 一 个 人 的 信号 ,这 可 能 导致 重要 的 隐藏 信息 丢失 。 换 句 话说 , 离 群 点 本 身 可 能 是 非 
常 重要 的 。 例 如 ,在 欺诈 探测 中 , 离 群 点 可 能 预示 着 欺诈 行为 。 离 群 点 探测 和 分 析 是 一 个 有 
趣 的 挖掘 任务 ,被 称 为 离 群 点 挖掘 或 离 群 点 诊断 ,简称 诊断 。 

离 群 点 诊断 有 着 广泛 的 应 用 ,如 用 于 欺诈 监测 ,探测 不 寻常 的 信用 卡 使 用 或 电信 服务 ; 
在 市 场 分 析 中 可 用 于 确定 极 低 或 极 高 收入 的 客户 的 消费 行为 ; 或 者 在 医疗 分 析 中 用 于 发 现 
对 多 种 治疗 方式 的 不 寻常 的 反应 。 

离 群 点 诊断 需 注意 的 问题 。 

(1) 在 时 间 序 列 样本 中 发 现 离 群 点 一 般 比较 困难 ,因为 这 些 离 群 点 可 能 会 隐藏 在 趋势 、 
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图 9-2 离 群 点 示意 图 





季节 性 或 者 其 他 变化 中 。 
(2) 对 于 维度 为 非 数 值 型 的 样本 ,在 检测 过 程 中 需 多 加 考虑 ,如 对 维度 进行 预 处 
理 等 。 


(3) 多 维 数据 的 离 群 点 异常 特征 可 能 是 多 维度 的 组 合 ,而 不 是 单一 维度 就 能 体现 的 。 


4. 离 群 点 的 分 类 

1) 从 使 用 的 主要 技术 路 线 角 度 分 类 

(1) 基于 统计 的 离 群 点 检测 : 在 已 知 目标 概率 分 布 模型 的 前 提 下 ,计算 该 对 象 符合 该 
模型 的 概率 ,对 于 高 维 数据 的 检验 效果 不 佳 。 

(2) 基于 邻近 度 的 离 群 点 检测 : 量化 数据 集 之 间 的 邻近 度 , 把 邻近 度 低 的 视 为 离 群 点 ， 
缺点 是 不 适合 大 数据 集 , 不 能 处 理 具有 不 同 区 域 密度 的 数据 集 。 

(3) 基于 密度 的 离 群 点 检测 : 定义 一 个 密度 值 , 一 个 对 象 的 离 群 点 得 分 是 该 对 象 周围 
密度 的 逆 , 缺 点 是 大 数据 集 不 适用 ,参数 选择 也 十 分 困难 。 

(4) 基于 聚 类 的 离 群 点 检测 基于 聚 类 技术 来 发 现 离 群 点 可 能 是 高 度 有 效 的 , 聚 类 算 
法 产生 的 簇 的 质量 对 该 算法 产生 的 离 群 点 的 质量 影响 非常 大 。 

2) 从 类 标号 (正常 或 异常 ) 利 用 程度 的 分 类 

(1) 监督 的 异常 检测 : 监督 的 异常 检测 技术 要 求 存 在 异常 类 和 正常 类 的 训练 集 。 

(2) 非 监 督 的 异常 检测 : 在 许多 实际 情况 下 ,没有 提供 类 标号 。 在 这 种 情况 下 ,目标 是 
将 一 个 得 分 (或 标号 ?赋予 每 个 实例 ,反映 该 实例 异常 的 程度 。 注 意 , 可 能 许多 互相 相似 的 异 
常 的 值 也 被 标记 为 正常 ,或 具有 较 低 的 离 群 点 得 分 。 

(3) 半 监 督 的 异常 检测 : 有 时 ,训练 数据 包含 被 标记 的 正常 数据 ,但 是 没有 包含 关于 异 
常 对 象 的 信息 。 在 半 监 督 的 情况 下 ,目标 是 使 用 有 标记 的 正常 对 象 的 信息 ,对 于 给 定 的 对 象 
集合 ,发 现 异常 标号 或 得 分 。 

近年 来 ,有 不 少 学 者 结合 关联 规则 ,模糊 集 和 人 工 智能 等 其 他 技术 提出 了 一 些 新 的 离 群 
点 诊断 算法 ,比较 典型 的 有 基于 关联 的 方法 、 基 于 模糊 集 的 方法 、 基 于 人 工 神经 网 络 的 方法 、 
基于 遗传 算法 或 克隆 选择 的 方法 等 。 


9.4.2 各 种 离 群 点 诊断 技术 


下 面 主要 对 常用 的 离 群 点 诊断 技术 进行 介绍 。 

1. 基于 统计 方法 的 离 群 点 

基于 统计 /模型 的 离 群 点 诊断 ,首先 建立 一 个 数据 模型 。 如 果 一 个 对 象 不 能 很 好 地 同 该 
模型 拟 合 , 即 不 服从 该 分 布 , 则 它 是 一 个 异常 。 如 果 模 型 是 艇 的 集合 , 则 异常 是 不 明显 属于 
任何 簇 的 对 象 。 如 今 ,大 部 分 用 于 离 群 点 检测 的 统计 学 方法 都 基于 构建 一 个 概率 分 布 模型 。 
如 果 假 定数 据 具 有 高 斯 分 布 , 则 基本 分 布 的 均值 和 标准 差 可 以 通过 计算 数据 的 均值 和 标准 
差 来 估计 ,并 考虑 对 象 有 多 大 可 能 符合 该 模型 。 离 群 点 是 符合 数据 的 概率 分 布 模型 时 具有 
低 概率 的 数据 对 象 。 如 果 数 据 使 用 回归 模型 , 则 离 群 点 是 相对 远离 预测 值 的 对 象 。 基 于 统 
计 / 模 型 的 离 群 点 诊断 对 于 高 维 数据 的 检验 效果 不 佳 。 

基于 似 然 的 离 群 点 是 在 预先 知道 数据 类 和 离 群 类 分 布 的 情况 下 ,使 用 似 然 概率 对 某 一 
点 进行 概率 估计 的 方法 。 算 法 要 求 离 群 数据 集 规模 远 远 小 于 常规 数据 集 规 模 , 即 使 一 个 数 
据 进 入 离 群 集 后 常规 集 的 分 布 也 不 受 明显 影响 ,同时 在 离 群 数据 取 均 值 分 布 时 ,移入 离 群 集 
每 个 对 象 总 似 然 的 影响 也 是 固定 的 。 基 于 似 然 的 算法 常 把 数据 集 下 分 布 概率 较 低 的 数据 对 
象 判定 为 离 群 点 。 基 于 似 然 的 离 群 点 检测 算法 见 表 9-2。 
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表 9-2 基于 似 然 的 离 群 点 检测 算法 


1: 初始 化 :在 时 刻 t= 0, 令 其 包含 所 有 对 象 ,A. 为 空 。 
Ire (D)= 工人 ME)+ 二 (RA), 所 有 数据 的 对 数 似 然 。 
: for 属于 M 的 每 点 xdo 
: 将 x 从 MM 移动 到 A, 产生 新 的 数据 集合 A.; ;和 M, :。 
: 计算 D 的 新 的 对 数 似 然 LI : (D)= ILM: 1)+ LL(Ae+ 1) 
: 计算 差 A= LL: (D)- Ice (D) 
: ifA> c。 其 中 ,c 是 某 个 阔 值 then 
: 将 x 分 类 为 异常 。 即 M; ;和 A; :保持 不 变 ,并 成 为 当前 的 正常 和 异常 集 。 
: endif 





bowaowa ww 


: endfor 





基于 统计 的 方法 检测 出 来 的 离 群 点 很 可 能 被 不 同 的 分 布 模型 检测 出 来 ,可 以 说 产生 这 
些 离 群 点 的 机 制 可 能 不 唯一 ,解释 离 群 点 的 意义 时 经 常 发 生 多 义 性 ,这 是 基于 统计 方法 的 一 
个 缺陷 。 其 次 ,基于 统计 的 方法 在 很 大 程度 上 依赖 于 待 挖掘 的 数据 集 是 否 满足 某 种 概率 分 
布 模型 ,模型 的 参数 、 离 群 点 的 数目 等 对 基于 统计 的 方法 都 有 非常 重要 的 意义 ,而 确定 这 些 
参数 通常 都 比较 困难 。 而 且 , 基 于 统计 的 离 群 检 测算 法 大 多 只 适合 于 挖掘 单 变量 的 数值 型 
数据 ,目前 几乎 没有 多 元 的 不 一 致 检验 。 对 于 图 像 和 地 理 数据 ,数据 集 的 维 数 可 能 是 高 维 
的 。 因 此 ,在 实际 生活 中 ,以 上 缺陷 都 大 大 限制 了 基于 统计 的 方法 的 应 用 ,使 得 它 主 要 局 限 
于 科研 计算 ,算法 的 可 移植 性 较 差 。 

2. 基于 距离 的 离 群 点 检测 

通常 可 以 在 对 象 之 间 定 义 邻 近 性 度量 ,并 且 许 多 检测 方法 都 基于 邻近 度 。 异 常 对 象 是 
那些 远离 大 部 分 其 他 对 象 的 对 象 , 这 一 邻 域 的 许多 技术 都 基于 距离 , 称 作 基于 距离 的 离 群 点 
检测 技术 。 尽 管 基于 距离 /邻近 度 的 异常 检测 的 思想 存在 若干 变形 ,但 是 其 基本 概念 是 很 简 
单 的 , 即 如 果 一 个 对 象 远离 大 部 分 点 ,那么 就 是 异常 的 。 这 种 方法 比 统计 学 方法 更 容易 使 
用 ,因为 确定 数据 集 的 有 意义 的 邻近 性 度量 比 确定 它 的 统计 分 布 更 容易 。 度 量 方法 如 下 : 

(1) 基于 距离 的 离 群 点 最 早 是 由 Knorr 和 Ng 提出 的 ,他 们 把 记录 看 作 高 维 空间 中 的 
点 , 离 群 点 被 定义 为 数据 集中 与 大 多 数 点 之 间 的 距离 都 大 于 某 个 阅 值 的 点 ,通常 被 描述 为 
DB (pct,dwin)。 数 据 集 中 一 个 记录 O 称 为 离 群 点 , 当 且 仅 当 数据 集中 至 少 有 pct 部 分 
的 数据 与 O 的 距离 大 于 dw。。 换 一 种 角度 考虑 , 记 M 二 NX (1 一 pct), 离 群 检测 即 判 断 与 点 
O 〇 距离 小 于 dw 的 点 是 否 多 于 M。 若 是 , 则 O 不 是 离 群 点 ; 否则 ,O 是 离 群 点 。 

(2) 孤立 点 是 数据 集中 到 第 & 个 最 近邻 居 的 距离 最 大 的 n 个 对 象 。 


基于 距离 的 方法 与 基于 统计 的 方法 相 比 ,不 需要 用 户 拥有 任何 领域 知识 ,与 序列 异常 相 
比 , 在 概念 上 更 加 直观 。 基 于 距离 的 离 群 点 定义 包含 并 拓展 了 基于 统计 的 思想 ,即使 数据 集 
不 满足 任何 特定 分 布 模型 , 它 仍 能 有 效 地 发 现 离 群 点 ,特别 是 当空 间 维 数 比 较 高 时 ,算法 的 
效率 比 基 于 密度 的 方法 要 高 得 多 。 具 体 实现 算法 时 ,首先 给 出 记录 间距 离 的 度量 ,常用 的 是 
绝对 距离 (曼哈顿 距离 ) 、 欧 氏 距离 和 马 氏 距离 。 在 给 出 了 距离 的 度量 ,并 对 数据 进行 一 定 
的 预 处 理 后 ,任意 给 定 参 数 pct 和 da 就 可 以 根据 离 群 的 定义 来 检测 离 群 。 

基于 距离 的 方法 理论 上 能 处 理 任意 维 \ 任 意 类 型 的 数据 , 当 属 性 数据 为 区 间 标 度 等 非 数 


值 属性 时 ,记录 之 间 的 距离 不 能 直接 确定 ,通常 需要 把 属性 转换 为 数值 型 ,再 按 定 义 计 算 记 
录 之 间 的 距离 。 当 空间 的 维 数 大 于 三 维 时 ,由 于 空间 的 稀 朴 性 ,距离 不 再 具有 常规 意义 , 因 
此 很 难为 异常 给 出 合理 的 解释 。 针 对 这 个 问题 ,可 通过 将 高 维 空间 映射 转换 到 子 空间 的 办 
法 来 解决 数据 稀 玖 的 问题 。R. Agarwal 等 人 曾 试 着 用 这 种 投影 变换 的 方法 来 挖掘 离 群 。 

总 的 来 说 ,基于 距离 的 离 群 检测 方法 具有 比较 直观 的 意义 ,算法 比较 容易 理解 ,因此 在 
实际 中 应 用 得 比较 多 。 但 对 于 大 型 数据 集 可 能 代价 过 高 ,而 且 该 方法 对 参数 的 选择 也 是 敏 
感 的 。 因 为 它 使 用 全 局 阔 值 ,不 能 考虑 密度 的 变化 带 来 的 影响 ,所 以 不 能 处 理 具有 不 同 密度 
区 域 的 数据 集 。 

目前 比较 成 熟 的 基于 距离 的 离 群 点 检测 的 算法 有 基于 索引 的 算法 , 嵌 套 循环 算法 和 基 
于 单元 的 算法 。 

(1) 基于 索引 的 算法 (Index-based): 给 定 一 个 数据 集合 ,基于 索引 的 算法 采用 多 维 索 
引 结构 R- 树 .k-d 树 等 ,来 查找 每 个 对 象 在 半径 d 范围 内 的 邻居 。 

(2) 典 套 循环 算法 (Nested-loop): 蔡 套 循环 算法 和 基于 索引 的 算法 有 相同 的 计算 复杂 
度 ,避免 了 索引 结构 的 构建 ,试图 最 小 化 1/O 的 次 数 。 

(3) 基于 单元 的 算法 (cell-based) : 在 该 方法 中 ,数据 空间 被 划 为 边 长 等 于 cd/(2*A2 ) 的 
单元 。 每 个 单元 有 两 个 层 围绕 着 它 。 第 一 层 的 厚度 是 一 个 单元 ,而 第 二 层 的 厚度 是 
[2 x*k® 一 1]。 该 算法 逐个 单元 地 对 异常 点 计数 ,而 不 是 逐个 对 象 地 进行 计数 。 

三 种 类 型 的 基于 距离 的 离 群 检测 算法 中 ,基于 索引 的 算法 和 柑 套 循环 算法 需要 OCk x 到 ) 
的 时 间 开 销 ,因此 在 大 数据 集中 还 有 待 于 改进 ; 而 基于 单元 的 算法 ,虽然 与 具有 线性 的 时 
间 关 系 , 但 是 它 与 & 成 指数 关系 ,这 限制 了 它 在 高 维 空间 中 的 应 用 。 此 外 ,基于 单元 的 算法 
还 需要 事先 确定 参数 pct、dwin 和 单元 的 大 小 ,这 使 得 算法 的 可 行 性 比较 差 ; 高 维 空间 中 , 基 
于 索引 的 方法 由 于 需要 事先 建立 数据 集 的 索引 ,建立 与 维护 索引 也 要 用 大 量 的 时 间 。 因 此 
这 三 种 算法 对 于 高 维 空间 中 的 大 数据 集 来 说 ,效率 都 不 高 。 

3. 基于 密度 的 离 群 点 检测 

基于 密度 的 离 群 点 检测 算法 一 般 建 立 在 距离 的 基础 上 , 某 种 意义 上 来 说 ,基于 密度 的 方 
法 是 基于 距离 的 方法 中 的 一 种 ,主要 思想 是 将 记录 之 间 的 距离 和 某 一 给 定 范围 内 记录 数 这 
两 个 参数 结合 起 来 ,从 而 得 到 “密度 ”的 概念 .然后 根据 密度 判定 记录 是 否 为 离 群 点 。 

从 基于 密度 的 观点 来 说 , 离 群 点 是 在 低 密度 区 域 中 的 对 象 。 基 于 密度 的 离 群 点 的 一 个 
对 象 的 离 群 点 得 分 是 该 对 象 周 围 密 度 的 逆 。 

道 距离 : 基于 密度 的 离 群 点 检测 与 基于 邻近 度 的 离 群 点 检测 密切 相关 ,因为 密度 通常 
也 用 邻近 度 定义 。 一 种 常用 的 定义 密度 的 方法 是 ,定义 密度 为 到 & 个 最 近邻 的 平均 距离 的 
倒数 。 如 果 该 距离 小 , 则 密度 高 ,反之 亦 然 。 逆 距离 体现 了 这 种 思想 。 
>)y ENCZ,R)distance(Czyy) 

| NCz,A) | 
其 中 ,N(x,k) 是 包含 x 的 &- 最 近邻 的 集合 ,| N(x,k)| 是 该 集合 的 大 小 ,而 y 是 一 个 最 近邻 。 
半径 内 的 点 计数 一 个 对 象 周围 的 密度 等 于 该 对 象 指定 距离 d 内 对 象 的 个 数 。 如 果 参 数 d 
太 小 , 则 许多 正常 点 可 能 具有 低 密度 ,从 而 具有 高 离 群 点 得 分 ; 如 果 d 太 大 , 则 许多 离 群 点 
可 能 具有 与 正常 点 类 似 的 密度 和 离 群 点 得 分 。 
另 一 种 密度 定义 是 使 用 DBSCAN 聚 类 算法 使 用 的 密度 定义 , 即 一 个 对 象 周围 的 密度 等 
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于 该 对 象 指定 距离 d 内 对 象 的 个 数 。 

使 用 任何 密度 定义 检测 离 群 点 具有 与 基于 邻近 度 的 离 群 点 方案 类 似 的 特点 和 局 限 性 。 
特殊 地 , 当 数据 包含 不 同 密度 的 区 域 时 ,它们 不 能 正确 地 识别 离 群 点 。 为 了 正确 地 识别 这 种 
数据 集中 的 离 群 点 ,需要 使 用 与 对 象 邻 域 相关 的 相对 密度 来 定义 。 常 见 的 两 种 方法 如 下 : 

(1) 基于 SNN 密度 的 聚 类 算法 。 

(2) 用 点 z 的 密度 与 它 的 最 近邻 y 的 平均 密度 之 比 作为 相对 密度 。 使 用 相对 密度 的 离 
群 点 检测 (局 部 离 群 点 要 素 LOF 技术 ): 首先 ,对 于 指定 的 近邻 个 数 (&) ,基于 对 象 的 最 近邻 
计算 对 象 的 密度 Density(z,&) ,由 此 计算 每 个 对 象 的 离 群 点 得 分 ; 然后 ,计算 点 的 邻近 平均 
密度 ,并 使 用 它们 计算 点 的 平均 相对 密度 。 这 个 量 指示 x 是 否 在 比 它 的 近邻 更 稠密 或 更 稀 
政 的 邻 域内 ,并 取 作 z 的 离 群 点 得 分 。 

Breunig 等 人 提出 的 基于 局 部 离 群 因子 的 异常 检测 算法 LOF 是 基于 密度 方法 的 一 个 
典型 算法 。 它 首先 产生 所 有 点 的 MinPts 邻 域 及 MinPts 距离 ,并 计算 到 其 中 每 个 点 的 距 
离 ; 对 低 维 数据 ,利用 网 格 进行 -NN 查询 ,计算 时 间 为 O(n); 对 中 维 或 中 高 维 数据 ,采用 
如 X2 树 等 索引 结构 ,使 得 进行 k2NN 查询 的 时 间 为 O(logn) ,整个 计算 时 间 为 O(nlogn); 
对 特 高 维 数据 ,索引 结构 不 再 有 效 ,时 间 复 杂 度 提高 到 OG )。 然 后 计算 每 个 点 的 局 部 异常 
因子 ,最 后 根据 局 部 异常 因子 来 挖掘 离 群 。 

LOF 算法 中 , 离 群 点 被 定义 为 相对 于 全 局 的 局 部 离 群 点 ,与 传统 离 群 点 的 定义 不 同 , 离 
群 点 不 再 是 一 个 二 值 属性 (要 么 是 离 群 点 ,要 么 是 正常 点 )。LOF 算法 中 充分 体现 了 “局 部 ” 
的 概念 ,每 个 点 都 给 出 了 一 个 离 群 程度 , 离 群 程度 最 强 的 那 几 个 点 被 标记 为 离 群 点 。 与 基于 
距离 的 方法 一 样 ,这 些 方法 具有 OCm? ) 时 间 复 杂 度 (m 是 对 象 个 数 ) ,对 于 低 维 数据 可 以 将 
它 降低 到 OG(mlogm)。 通 过 观察 不 同 的 k 值 ,然后 取 最 大 离 群 点 得 分 来 解决 参数 难以 选择 
的 问题 ,但 仍然 需要 选择 这 些 值 的 上 下 界 。 这 样 , 即 使 数据 具有 不 同 密度 的 区 域 也 能 够 很 好 
地 处 理 。 表 9-3 给 出 相对 密度 离 群 点 得 分 算法 。 


表 9-3 相对 密度 离 群 点 得 分 算法 





: (k 是 最 近邻 个 数 ) 

: forall 对 象 xdo 

: 确定 x 的 je 最 近邻 N(x,k) 

: 使 用 x 的 最 近邻 ( 即 N(x,k) 中 的 对 象 ) ,确定 x 的 密度 density (x,k) 
: endfor 

: forall 对 象 xdo 

由 公式 置 outlierscore (x,k)= averagerelativedensity (x,k) 


oa um wb 


: endfor 





9.4.3 基于 聚 类 的 离 群 点 技术 


聚 类 分 析 可 以 发 现 强 相关 的 对 象 组 ,而 异常 检测 需要 发 现 不 与 其 他 对 象 强 相 关 的 对 象 。 
因此 , 聚 类 分 析 可 以 用 于 异常 检测 。 

一 种 利用 聚 类 分 析 检 测 离 群 点 的 方法 是 丢弃 远离 其 他 簇 的 小 徐 。 该 方法 可 与 任何 聚 类 
技术 一 起 使 用 ,但 是 需要 最 小 簇 大 小 和 小 族 与 其 他 簇 之 间距 离 的 阔 值 。 通 常 ,该 过 程 可 以 简 
化 为 丢弃 小 于 某 个 最 小 尺寸 的 所 有 簇 。 这 种 方案 对 簇 个 数 的 选择 高 度 敏 感 。 


另 一 种 方法 是 ,首先 聚 类 所 有 对 象 ,然后 评估 对 象 属于 簇 的 程度 。 对 于 基于 原型 的 聚 
类 ,可 以 用 对 象 到 它 的 簇 中 心 的 距离 来 度量 对 象 属于 复 的 程度 。 对 于 基于 目标 函数 的 聚 类 
技术 ,可 以 使 用 该 目标 函数 来 评估 对 象 属于 任意 簇 的 程度 。 特 殊 情 况 下 ,如 果 删 除 某 个 对 象 
导致 该 目标 的 显著 改进 , 则 我 们 可 以 将 该 对 象 分 类 为 离 群 点 。 例 如 ,对 于 下 均值 ,删除 远离 
其 相关 簇 中 心 的 对 象 能 够 显著 地 改进 该 篮 的 误差 的 平方 和 (SSE) 。 

在 基于 聚 类 的 离 群 点 中 ,如 果 一 个 对 象 是 基于 聚 类 的 离 群 点 , 则 该 对 象 不 强 属于 任何 
复 。 解 释 也 适应 于 检测 离 群 点 的 基于 密度 和 基于 连接 度 的 聚 类 方法 。 即 对 于 基于 密度 的 聚 
类 ,如 果 某 对 象 的 密度 太 低 , 则 该 对 象 不 强 属于 任何 艇 。 对 于 基于 连接 度 的 聚 类 ,如 果 它 不 
是 强 连接 的 , 则 该 对 象 不 强 属于 任何 簇 。 

基于 聚 类 离 群 点 检测 需要 处 理 的 问题 如 下 。 

1. 对 象 属于 签 的 程度 

对 于 基于 原型 的 聚 类 ,评估 对 象 属于 簇 的 程度 的 方法 有 多 种 。 一 种 方法 是 度量 对 象 到 
徐 原 型 的 距离 ,并 用 它 作 为 该 对 象 的 离 群 点 得 分 。 然 而 ,如 果 簇 具有 不 同 的 密度 , 则 可 以 构 
造 一 种 离 群 点 得 分 ,通过 计算 到 该 复 其 他 对 象 的 距离 ,度量 对 象 到 复原 型 的 相对 距离 。 如 果 
乱 可 以 准确 地 用 高 斯 分 布 建 模 ,可 使 用 Mahalanobis( 马 氏 距 离 ) 进 行 度量 。 

对 于 具有 目标 函数 的 聚 类 技术 ,可 以 将 离 群 点 得 分 赋予 对 象 。 得 分 反映 删除 该 对 象 后 
对 目标 函数 的 改进 。 如 果 基 于 目标 函数 评估 点 的 计算 是 密集 的 ,可 使 用 基于 距离 的 方法 的 
计算 方法 。 

2. 离 群 点 对 初始 聚 类 的 影响 

在 通过 聚 类 检测 离 群 点 方法 中 ,由 于 离 群 点 会 影响 聚 类 的 效果 ,所 以 可 能 存在 结果 是 否 
有 效 的 问题 。 最 简单 处 理 该 问题 的 方法 是 先 对 对 象 进行 聚 类 ,删除 离 群 点 ,对 对 象 再 次 进行 

男 一 种 方法 是 取 一 组 不 能 很 好 地 拟 合 任何 簇 的 特殊 对 象 ,这 组 对 象 代表 潜在 的 离 群 点 。 
随 着 聚 类 过 程 中 簇 的 变化 进展 ,将 不 再 强 属 于 任何 徐 的 对 象 添加 到 潜在 的 离 群 点 集合 ,并 测 
试 该 集合 中 的 对 象 , 如 果 它 现在 强 属于 一 个 簇 ,就 可 以 将 它 从 潜在 的 离 群 点 集合 移出 。 聚 类 
过 程 结束 时 还 留 在 该 集合 中 的 点 被 分 类 为 离 群 点 ,但 这 样 可 能 并 不 能 保证 得 到 最 优 解 ,结果 
也 不 能 保证 比 前 面 的 简单 方法 更 好 。 

3. 使 用 签 的 个 数 

在 使 用 聚 类 进行 离 群 点 检测 时 ,因为 对 象 是 否 被 认为 是 离 群 点 可 能 依赖 于 艇 的 个 数 。 
而 K 均值 等 聚 类 技术 并 不 能 自动 地 确定 簇 的 个 数 。 这 使 得 入 的 个 数 确定 成 为 一 个 问题 。 
例如 ,10 个 对 象 相互 可 能 相对 靠近 ,但 如 果 能 找 出 几 个 大 簇 , 则 可 能 将 它们 作为 某 个 较 大 簇 
的 一 部 分 。 在 这 种 情况 下 ,10 个 点 都 可 能 被 视 为 离 群 点 。 但 是 ,如 果 指 定 足 够 多 的 簇 个 数 ， 
它们 可 能 形成 一 个 簇 。 

可 以 采用 对 不 同 的 簇 个 数 重复 分 析 的 方法 不 断 进行 验证 。 另 一 种 方法 是 找 出 大 量 小 
复 ,其 思路 是 较 小 的 簇 趋 向 于 更 加 凝聚 ,而 且 如 果 在 存在 大 量 小 得 时 一 个 对 象 还 是 离 群 点 ， 
那么 它 多 半 是 一 个 真正 的 离 群 点 ,不 利 的 一 面 是 一 组 离 群 点 可 能 形成 小 簇 而 逃避 检测 。 

因为 K 均值 等 聚 类 技术 的 时 间 和 空间 复杂 度 是 呈 线 性 或 接近 线性 ,所 以 基于 此 类 算法 
的 离 群 点 检测 技术 可 能 是 非常 有 效 的 。 而 且 , 因 为 簇 的 定义 采用 离 群 点 的 补 的 概念 ,因此 可 
能 导致 同时 发 现 侯 和 离 群 点 。 但 产生 的 离 群 点 集 和 它们 的 得 分 可 能 非常 依赖 所 用 的 秘 的 个 
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数 和 数据 中 离 群 点 的 存在 性 , 聚 类 算法 产生 的 簇 的 质量 成 为 重要 因素 。 
9.4.4 其 他 的 离 群 点 检测 方法 


其 他 的 离 群 算法 大 致 可 归纳 为 基于 偏 移 、 深 度 、 小 波 变换 、 高 维 数据 .关联 \ 粗 糙 集 与 人 
工 神经 网 络 的 离 群 点 检测 方法 。 

1. 基于 偏 移 的 离 群 点 检测 方法 

基于 偏 移 的 离 群 点 检测 方法 (Deviation-based Outlier Detection) 通 过 对 测试 数据 集 的 
主要 特征 的 检验 来 发 现 离 群 点 。 目 前 ,基于 偏 移 的 检测 算法 大 多 都 停留 在 理论 研究 上 ,实际 
应 用 比较 少 。 以 下 三 种 是 比较 有 代表 性 的 。 

(1) Arning 采用 了 系列 化 技术 的 方法 来 挖掘 离 群 ,由 于 算法 对 异常 存在 的 假设 太 过 理 
想 化 ,对 于 现实 复杂 数据 的 效果 不 太 好 ,经 常 遗 漏 了 不 少 的 异常 数据 。 

(2) Sarawagi 应 用 OLAP 数据 立方 体 引进 了 发 现 驱动 的 基于 偏 移 的 异常 检测 算法 。 

(3) Jagadish 给 出 了 一 个 高 效 的 挖掘 时 间 序 列 中 异常 的 基于 偏 移 的 检测 算法 。 

基于 偏 移 的 异常 点 检测 不 采用 统计 检验 或 者 基于 距离 的 度量 值 来 确定 异常 对 象 , 它 是 
模仿 人 类 的 思维 方式 ,通过 观察 一 个 连续 序列 后 ,迅速 地 发 现 其 中 某 些 数据 与 其 他 数据 明显 
的 不 同 来 确定 异常 点 对 象 ,即使 不 清楚 数据 的 规则 。 

基于 偏 移 的 异常 点 检测 常用 序列 异常 技术 和 OLAP 数据 立方 体 技术 。 

基于 偏差 的 异常 点 数据 的 检测 方法 的 时 间 复 杂 度 通常 为 O(n),n 为 对 象 个 数 。 基 于 
偏差 的 异常 点 检测 方法 计算 性 能 优异 ,但 由 于 事先 并 不 知道 数据 的 特性 ,异常 存在 的 假设 太 
过 理想 化 ,因而 相 异 函数 的 定义 较为 复杂 ,对 现实 复杂 数据 的 效果 不 太 理 想 。 

2. 基于 深度 的 离 群 点 检测 方法 

基于 深度 的 离 群 点 检测 算法 的 主要 思想 是 先 把 每 个 记录 标记 为 维 空间 里 的 一 个 点 ， 
然后 根据 深度 的 定义 (常用 Peeling Depth Contours 定义 ) 给 每 个 点 赋予 一 个 深度 值 ,再 根 
据 深 度 值 按 层 组 织 数据 集 ,深度 值 较 小 的 记录 是 离 群 点 的 可 能 性 比 深度 值 较 大 的 记录 大 得 
多 ,因此 算法 只 需要 在 深度 值 较 小 的 层 上 进行 离 群 检测 ,不 需要 在 深度 值 大 的 记录 层 进行 离 
群 检测 。 基 于 深度 的 方法 比较 有 代表 性 的 有 Struyf 和 Rousseeuw 提出 的 DEEPLOC 算法 。 
虽然 ,理论 上 基于 深度 的 识别 算法 可 以 处 理 高 维 数据 ,然而 实际 计算 时 ,k 维 数据 的 多 层 操 
作 中 , 若 数据 集 记 录 数 为 N, 则 操作 的 时 间 复 杂 度 为 CNLA/2])。 因 此 , 当 维 数 A 生 3 时 处 
理 大 数据 集 有 可 能 是 高 效 的 ; 而 当 k 宇 4 时 ,算法 的 效率 就 非常 低 。 也 就 是 说 ,已 有 的 基于 
深度 的 离 群 点 检测 算法 无 法 挖掘 高 维 数据 ,只 有 当 k<3 时 计算 效率 才 是 可 接受 的 。 

实现 方法 : 首先 计算 每 个 点 与 其 邻近 点 的 深度 值 之 差 ,然后 选择 出 合适 的 阅 值 ,最 后 根 
据 闽 值 识别 离 群 点 。 

3. 基于 小 波 变换 的 离 群 点 检测 算法 

基于 小 波 变 换 的 方法 主要 在 高 频 分 量 上 提取 边缘 ,忽略 了 低频 分 量 的 部 分 边缘 信息 。 
然而 由 于 图 像 的 真实 边缘 常常 与 许多 噪声 点 混杂 在 一 起 ,在 抑制 噪声 的 过 程 中 丢失 了 一 些 
细节 边缘 ,所 以 检测 到 的 边缘 会 存在 不 连续 的 现象 。 

4. 基于 高 维 数 据 的 离 群 点 检测 算法 

以 上 几 种 异常 检测 算法 一 般 都 是 在 低 维 数据 上 进行 的 ,对 于 高 维 数据 的 效果 并 不 是 很 
好 。 与 低 维 空间 不 同 , 高 维 空间 中 的 数据 分 布 得 比较 稀 朴 ,这 使 得 高 维 空间 中 数据 之 间 的 距 


离 尺 度 及 区 域 密度 不 再 具有 直观 的 意义 。 基 于 这 个 原因 ，Aggarwal 和 Yu 提出 一 个 高 维 
数据 异常 检测 的 方法 。 它 把 高 维 数据 集 映 射 到 低 维 子 空间 ,根据 子 空间 映射 数据 的 稀 朴 程 
度 来 确定 异常 数据 是 否 存在 。 

高 维 数据 的 异常 点 检测 的 主要 思想 是 : 首先 它 将 数据 空间 的 每 一 维 分 成 小 个 等 深度 区 
间 。 所 谓 等 深度 区 间 是 指 将 数据 映射 到 此 一 维 空间 上 后 ,每 一 区 间 包 含 相 等 的 了 = 1/& 的 
数据 点 。 然 后 在 数据 集 的 & 维 子 空间 中 的 每 一 维 上 各 取 一 个 等 深度 区 间 ,组 成 一 个 & 维 立 
方 体 , 则 立方 体 中 的 数据 映射 点 数 为 一 个 随机 数 。 设 n(D) 为 维 立方 体 D 所 包含 的 点 数 ， 
NN 为 总 的 点 数 。 定 义 稀 玻 系数 CD) 如 下 : 

nD)—NXxXf 

s(DD) 为 负数 时 ,说 明 立 方 体 D 中 数据 点 低 于 期 望 值 。*CD) 越 小 ,说 明 该 立方 体 中 数据 
越 稀疏 。 蜡 常 检测 问题 可 以 转化 成 为 寻找 映射 在 CA 作为 参数 输入 ) 维 子 空间 上 的 异常 模 
式 以 及 符合 这 些 异 常 模式 的 数据 。 

5. 基于 关联 的 离 群 点 检测 方法 

经 典 的 离 群 点 挖掘 算法 往往 都 只 能 适用 于 连续 属性 的 数据 集 ,而 不 适用 于 离散 属性 的 
数据 集 。 这 是 因为 很 难 对 离散 属性 数据 进行 求 和 , 求 距离 等 数字 运算 。 因 此 ,He 等 人 提出 
了 基于 关联 的 方法 ,通过 发 现 频繁 项 集 来 检测 离 群 点 。 其 基本 思想 是 : 由 关联 规则 算法 发 
现 的 频繁 模式 反映 了 数据 集中 的 普遍 模式 ,而 不 包含 频繁 模式 或 只 包含 极 少 频繁 模式 的 数 
据 就 是 离 群 点 。 也 就 是 说 ,频繁 模式 不 会 包含 在 作为 离 群 点 的 数据 中 。He 定义 了 一 种 利 
用 频繁 模式 度量 离 群 点 偏差 程度 的 频繁 模式 离 群 点 因子 (FPOF) 。 

Dre support 
[FPS(D,.minisupport) | 
式 中 ,i 表示 数据 集 D 的 一 个 对 象 ; FPS(D,minisupport) 表 示 D 中 满足 最 小 支持 度 的 频繁 
模式 集 ,并 通过 对 频繁 项 集 的 挖掘 和 比较 给 出 了 检测 离 群 点 的 新 算法 FindFPOF。 

基于 关联 的 方法 能 对 离散 属性 的 数据 集 进行 离 群 点 挖掘 ,时 间 复 杂 度 较 高 ,适用 于 较 大 
规模 的 离散 属性 数据 集 。 与 经 典 的 挖掘 算法 相 比 , 这 是 其 最 大 的 优点 ,但 该 算法 也 存在 两 个 
明显 的 缺点 : 巴 当 离散 的 属性 数据 量 较 小 时 ,算法 的 准确 度 明 显 降 低 : @ 频 繁 模式 的 挖掘 
是 非常 耗 时 的 工作 ,频繁 模式 的 保存 也 需要 大 量 的 存储 空间 。 

6. 基于 粗糙 集 的 离 群 点 检测 方法 

基于 粗糙 集 的 离 群 点 挖掘 算法 对 离 群 点 的 判断 是 吸取 基于 密度 的 离 群 点 挖掘 算法 的 思 
想 ,采用 一 个 值 作为 离 群 点 元 素 的 孤立 程度 的 度量 值 , 不 再 直接 利用 二 分 法 判断 离 群 点 。 

基于 粗糙 集 的 方法 采用 两 步 策略 检测 离 群 点。 首先 ,在 给 出 的 数据 集 X 中 找 出 极 小 异 
常 集 。 然 后 ,在 极 小 异常 集中 检测 出 X 的 离 群 点 。 因 此 ,基于 粗糙 集 的 方法 只 需要 判断 极 
小 异常 集中 的 点 是 否 为 离 群 点 。 

基于 粗糙 集 的 方法 仅 能 适用 于 离散 属性 数据 集 , 对 连续 属性 数据 集 需 要 进行 离散 化 处 
理 ,算法 的 时 间 复 杂 度 不 高 。 这 是 由 于 粗糙 集 理论 本 身 的 限制 ,此 外 参考 阔 值 的 选取 需要 靠 
经 验 给 出 ,也 是 一 个 有 待 解决 的 问题 。 

7. 基于 人 工 神经 网 络 的 离 群 点 检测 方法 

应 用 计算 智能 进行 离 群 点 挖掘 检测 已 经 成 为 近年 来 离 群 点 挖掘 的 研究 热点 之 一 。 比 较 


s(D) = 








FPOF (1) 


预测 方法 与 离 群 点 诊断 


典型 的 人 工 智 能 方法 有 基于 神经 网 络 的 方法 、 基 于 遗传 算法 的 方法 和 基于 克隆 选择 的 方 
法 等 。 

比较 典型 的 人 工 神经 网 络 的 方法 是 由 Williams 等 提出 的 RNN 神经 网 络 离 群 点 挖掘 算 
法 。 通 过 使 用 通用 的 统计 数据 集 和 专用 的 数据 挖掘 数据 集 作为 数据 源 ,对 RNN 方法 和 经 
典 的 离 群 点 挖掘 算法 进行 比较 ,发 现 RNN 对 大 的 数据 集 和 小 的 数据 集 都 令 人 满意 ,但 当 使 
用 包含 放射 状 的 离 群 点 (Radial Outliers) 时 ,性 能 下 降 。BNN 算法 的 时 间 复 杂 度 不 高 ,适用 
于 小 规模 和 大 规模 数据 集 ,不 适用 于 包含 放射 状 离 群 点 的 数据 集 。 

基于 人 工 神经 网 络 的 离 群 点 检测 方法 的 主要 缺陷 是 事先 需要 用 不 含 离 群 点 的 训练 样本 
对 网 络 进行 训练 ,然后 再 用 训练 好 的 神经 网 络 对 离 群 点 进行 检测 ,并 且 对 挖掘 出 的 离 群 点 的 
意义 也 难以 解释 。 此 外 ,由 于 神经 网 络 泛 化 能 力 的 限制 ,针对 一 种 运用 实践 而 训练 的 网 络 智 
能 用 于 该 类 实践 数据 ,并 且 和 迭代 次 数 是 人 为 控制 的 ,这 对 训练 效果 有 很 大 的 影响 ,在 运行 效 


率 上 和 准确 率 上 要 有 所 折 中 。 
8. 经 典 的 离 群 点 挖 握 算 法 比较 


表 9-4 列 出 了 以 上 所 讲 的 基于 统计 的 方法 、 基 于 距离 的 方法 、 基 于 偏离 的 方法 、 基 于 密 


度 的 方法 、 基 于 聚 类 的 方法 中 的 经 典 的 离 群 点 挖掘 算法 及 适应 性 比较 。 
表 9-4 经 典 的 离 群 点 挖掘 算法 比较 
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挖掘 方 法 奥 弄 算法 优 缺点 时 间 复 杂 度 适 用 性 
es 时 间 复 杂 度 与 数据 | 单 变量 , 且 服 从 特 
st EsD 算 法 和 全 所 | 集 大 小 \ 采 用 的 概率 | 定 的 概率 分 布 。 不 

分 布 模型 有 关 适合 高 维 数据 
验 知识 
TV7O 代价 较 高 ,性 能 | 适用 于 低 维 空间 中 
人 与 索引 结构 有 关 | CC ) 的 数据 集 
理论 上 可 以 处 理 任 
基于 距离 的 适用 于 较 低 维 \ 小 
NL 算法 意 维 , 减 少 了 算法 的 | OCAz2 ) 
方法 ee 规模 的 数据 集 
- 在 低 礁 空间 时 , 优 于 二 自 适 用 于 较 低 维 
单元 算法 NL 算法 OCck+n) 的 数据 集 
概念 有 缺陷 ,遗漏 了 | 时 间 复 杂 度 与 数据 
基于 偏离 的 | 序列 异常 技术 | 不 少 离 群 点 集 大 小 旦 线性 关系 。 | 适用 性 不 高 
方法 OLAP 数据 立 | 搜索 空间 大 ,人 工控 可 适用 于 多 维 数 
方 体 技术 测 困难 夺 国 生 各 度 丰 页 “| 入 币 
提出 了 孤立 强度 的 数据 集 的 聚 类 特性 
ee 概念 ,可 以 识别 局 部 | 低 维 O(D 比较 明显 , 求 局 部 
LOF 算法 异常 。 对 离 群 点 的 | 中 维 O(nlogn) 密度 时 间 的 代价 比 
稀疏 和 异常 难于 | 高 维 O(n) 较 低 。 不 适用 于 高 
解释 维 空间 
先 聚 类 后 检测 离 寻 
基于 聚 类 的 | 聚 类 与 离 群 点 | 点 ,产生 的 离 群 点 集 | 时 间 复 杂 度 与 数据 | 只 适 于 特定 的 数据 
> ee 入 地 区 风 让 各 | 集 大 小 旺 线性 关系 ，| 类 型 。 适 用 于 大 规 
ee 性 能 高 效 模 的 数据 集 





本 章 对 数据 挖掘 的 预测 方法 以 及 离 群 点 诊断 技术 进行 了 讲解 ,包括 预测 的 概念 及 分 类 、 
预测 模型 性 能 评价 度量 方法 以 及 常用 的 预测 方法 中 的 灰色 预测 .马尔 科 夫 预测 离 群 点 诊断 
技术 等 。 主 要 内 容 如 下 。 

(1) 预测 常用 方法 : 定性 分 析 与 定量 分 析 。 

(2) 模型 的 性 能 评价 标准 与 方法 。 

(3) 在 总 结 常用 的 预测 方法 回归 分 析 预 测 、ARIMA 模型 预测 (时 间 序 列 模型 预测 ) 、 灰 
色 预 测 .马尔 科 夫 预测 的 基础 上 ,重点 介绍 了 灰色 预测 .马尔 科 夫 预测 ,并 以 实例 说 明 。 

(4) 介绍 了 各 种 离 群 点 方法 ,并 进行 了 比较 。 包 括 离 群 点 的 定义 、 作 用 以 及 方法 的 分 
类 ; 基于 统计 方法 的 离 群 点 ; 基于 距离 的 离 群 点 检测 ; 基于 密度 的 离 群 点 的 检测 ; 基于 聚 
类 的 离 群 点 技术 等 ; 并 扩展 介绍 了 一 些 新 兴 的 离 群 点 挖掘 方法 ,包括 基于 偏 移 的 方法 、 基 于 
深度 的 方法 、 基 于 小 波 变 换 的 方法 、 基 于 人 工 神经 网 络 的 方法 等 。 








预测 准确 度 评价 十 常用 预 灰色 预测 十 马尔 科 夫 预测 概念 及 异常 值 检 测 方法 十 各 种 离 群 点 
测 方法 . mp4(28. 9MB) 应 用 场景 十 实例 . mp4(19. 4MB) 诊断 十 新 兴 的 离 群 点 挖掘 方法 
.mp4(27.2MB) 


习题 

1. 填空 题 

(1) GM(1,1) 的 建 模 步骤 有 ,由 原始 数据 序列 zx 计算 一 次 累加 序列 x ,建立 矩阵 B， 
,后 求 道 和 矩阵 (BTB)-: ,根据 求 估计 值 4 和 2 。 


(2) 车 事物 在 时 间 i 所 处 的 第 i 种 状态 ,i 二 1,2,…,n。 状 态 空间 s=={51 552… ,54) , 则 5; 
(3) 模型 的 预测 性 能 通常 用 于 从 多 个 样本 中 抽样 检测 时 所 建 模 型 的 评价 标准 ,是 通过 





将 的 预测 值 与 进行 比较 得 到 的 ,并 从 这 些 比较 中 计算 某 些 平均 误差 的 度 
量 (MAE) 。 

(4) 灰色 预测 理论 具有 ,不 需要 的 优点 ,在 用 于 不 确定 性 显著 和 缺乏 
数据 的 数据 中 应 用 的 准确 性 较 强 。 

2. 选择 题 


(1) 影响 预测 的 准确 度 的 因素 包括 ( Ys 
A. 评价 模型 预测 性 能 的 测试 集 个 案 的 预测 值 
B. 对 观测 值 的 抽样 方式 


人 hs 
le 预测 方法 与 离 群 点 诊断 (277) 


C. 数据 集 的 选 定 
D. 以 上 三 项 都 包括 
(2) 常用 的 预测 方法 中 对 预测 目标 的 函数 关系 有 要 求 的 方法 是 ( ) 预 测 。 


A. 回归 B. 时 间 序 列 

C. 灰色 D. 马尔 科 夫 
(3) 市 场 中 代用 产品 、 相 互 关联 产品 销售 相互 制约 的 预测 属于 ( ) 预 测 。 

A. 灰色 时 间 序 列 B. 畸变 

C. 系统 D. 拓扑 
(4) ( ) 预 测 对 某 个 系统 中 一 些 变 量 或 因素 间 相互 协调 发 展 变化 的 大 小 及 其 数量 进 

行 预测 。 

A. 数列 B. 灾变 C. 系统 D. 回归 
(5) 灰色 预测 适用 于 ( ) 数 据 。 

A. 大 型 B. 小 型 C. 时 间 序 列 D. 多 变量 
(6) 马尔 科 夫 的 预测 特性 包括 ( Ws 

A. 离散 性 B. 随机 性 C. 无 后 效 性 D. 以 上 都 有 
(7) 经 过 无 穷 多 次 状态 转移 后 所 得 到 的 状态 概率 称 为 ( ) 概 率 。 

A. 状态 转移 B. 终极 状态 C. 马尔 科 夫 D. 状态 
3. 简 答 题 


(1) 当 我 们 所 建立 的 模型 所 用 到 的 数据 观测 值 都 附 有 一 个 时 间 标 签 时 ,通常 会 选用 什 
么 方式 进行 评价 ? 为 什么 ? 

(2) 常用 的 预测 方法 有 哪 几 种 ? 分 析 其 中 的 利弊 并 简 述 。 

(3) 简单 描述 GM(n,1) 模 型 。 

(4) 马尔 科 夫 预测 适用 于 什么 样 的 数据 ? 应 用 的 模型 有 什么 样 的 特点 ? 

(5) 讨论 基于 如 下 方法 的 异常 检测 方法 潜在 的 时 间 复 杂 度 : 基于 聚 类 的 、 基 于 模型 的 、 
基于 距离 和 基于 密度 的 。 不 需要 专门 技术 的 知识 ,而 是 关注 每 种 方法 的 基本 计算 需求 ,如 计 
算 每 个 对 象 的 密度 的 时 间 需 求 。 

(6) 考虑 一 个 点 集 , 其 中 大 部 分 点 在 低 密度 区 域 ,少量 点 在 商 密 度 区 域 。 如 果 我 们 定义 
异常 为 低 密度 区 域 中 的 点 , 则 大 部 分 点 将 被 分 类 为 异常 。 这 是 对 基于 密度 的 异常 定义 的 适 
当 使 用 吗 ? 是 否 需 要 用 某 种 方式 修改 该 定义 ? 

4. 计算 题 

(1) 通过 表 9-5 中 的 数据 用 灰色 预测 对 建立 时 间 响 应 序列 。 

表 9-5 北方 某 城市 1986 一 1992 年 交通 噪声 平均 声 级 数据 
年 份 1986 1987 1988 1989 1990 1991 1992 








声 级 了 .和 得 ,多 72.4 72.4 71.4 72.0 71.6 


























(2) 重庆 市 各 年 份 社 会 销售 品 零售 总 额 见 表 9-6 ,根据 该 表 建 立 灰色 预测 模型 ,并 预测 
2010 年 重庆 市 社会 消费 品 零售 总 额 。 




















表 9-6 各 年 份 社 会 销售 品 零售 总 额 单位 : 亿 元 
年 份 社 零 总 额 年 份 社 零 总 额 年 份 社 零 总 额 
1997 568. 19 2001 782. 31 2005 1215.76 
1998 619. 40 2002 853. 60 2006 1403. 58 
1999 667.01 2003 934. 67 2007 1661. 23 
2000 719. 95 2004 1068. 33 2008 2064. 09 


(3) 水 库 人 库 径流 量 的 数据 见 表 9-7, 试 预测 径流 量 小 于 1000 万 立方 米 的 年 份 。 









































表 9-7 水库 入 库 径 流量 单位 : 万 立方 米 

序号 1 2 3 4 日 6 7 8 9 10 
年 份 1984 | 1985 | 1986 | 1987 | 1988 | 1989 | 1990 | 1991 | 1992 | 1993 
径流 量 | 1761 | 2187 | 2642 | 610 | 3136 | 863 966 | 1358 | 4042 | 1273 
序号 0 12 13 14 15 16 17 18 19 20 
年 份 1994 | 1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 
径流 量 | 720 554 463 682 | 1702 | 592 952 408 400 4647 
































时 间 序 列 分 析 


【内 容 摘 要 】 时 间 序 列 分 析 方 法 是 一 类 用 于 挖掘 、 分 析 时 序数 据 的 方法 。 本 章 将 介绍 
时 间 序 列 的 基本 概念 、 组 成 因素 及 分 类 ,阐述 时 间 序 列 的 基本 模型 ,通过 实例 介绍 时 间 序 列 
的 相关 分 析 方 法 及 偏差 检测 方法 。 

【学 习 目标 〗 通过 本 章 的 学 习 , 了 解 时 间 序 列 数据 的 特殊 性 ,理解 时 间 序 列 的 相关 概 
念 ,模型 的 建立 过 程 ,同时 掌握 时 间 序 列 分 析 方 法 及 各 种 偏差 检测 方法 。 可 以 根据 不 同 的 案 
例 选 择 相应 的 模型 及 时 间 序 列 分 析 方 法 ,学 会 时 间 序 列 在 现实 生活 中 的 简单 应 用 。 


10.1 时 间 序 列 的 基本 概念 


时 间 序 列 是 指 将 某 种 现象 某 一 个 统计 指标 在 不 同时 间 上 的 各 个 数值 ,按时 间 先 后 顺序 
排列 形成 的 序列 。 时 间 序 列 法 是 一 种 定量 预测 方法 , 亦 称 简单 外 延 方 法 ,在 统计 学 中 作为 一 
种 常用 的 预测 手段 被 广泛 应 用 。 时 间 序 列 分 析 在 第 二 次 世界 大 战 前 应 用 于 经 济 预测 ,第 二 
次 大 战 中 和 战 后 ,在 军事 科学 .空间 科学 .气象 预报 和 工业 自动 化 等 部 门 的 应 用 更 加 广泛 。 

时 间 序 列 分 析 (Time Series Analysis) 是 一 种 动态 数据 处 理 的 统计 方法 ,该 方法 基于 随 
机 过 程 理论 和 数理 统计 学 方法 ,研究 随机 数据 序列 所 遵从 的 统计 规律 ,以 用 于 解决 实际 
问题 。 

1. 时 间 序 列 与 随机 过 程 

随机 变量 序列 {Y, :t==0, 士 1, 土 2, 士 3,…} 称 为 一 个 随机 过 程 ,并 以 之 作为 观测 时 间 序 
列 的 模型 ,已 知 该 过 程 完整 的 概率 结构 是 由 所 有 Y, 的 有 限 联合 分 布 构成 的 分 部 族 决 定 的 ， 
幸运 的 是 ,联合 分 布 中 的 大 部 分 信息 可 以 通过 均值 .方差 和 协 方差 加 以 描述 。 

2. 均值 .方差 和 协 方差 

对 随机 过 程 {Y, :一 0, 士 1, 士 2, 士 3,…} ,均值 函数 定义 如 下 

Ap 一 下 (7Y)，L 上 一 0, 土 1, 土 2,… (10-1) 
即 mw 恰 是 过 程 在 : 时 刻 的 期 望 值 ,一 般 地 ,不 同时 刻 mw 可 取 不 同 的 值 。 
自 协 方差 函数 %., 定 义 如 下 : 














7 一 Cov(Y, ,7Y,)， ts 一 0, 十 1, 十 2,… (10-2) 
其 中 ,Cov (YY,)=E[(Y,—p) (Y,—ps)]=E(Y,Y,)— pp 
自 相 关 函 数 p,,, 由 下 式 给 出 
prs = Corr (YY,), ts 一 0, 十 1, 土 2,… 《10-37 











此 中 

















大 数据 
| 
Girmrtys ey Cov (YsY,) (10-4) 
VVar (Y,)Var(Y,) oo 
3. 平稳 性 


根据 观测 记录 对 随机 过 程 的 结构 进行 统计 推断 时 ,通常 必须 对 其 做 出 某 些 简化 的 (大 致 
合理 的 ?假设 ,其 中 最 重要 的 假设 即 是 平稳 性 。 时 间 序 列 平稳 性 的 定义 如 下 : 

假定 某 个 时 间 序 列 由 某 一 随机 过 程 生成 , 即 假定 时 间 序 列 {Y,:: 一 0, 士 1, 士 2, 士 3,…)} 
的 每 一 个 数值 都 是 从 一 个 概率 分 布 中 随机 得 到 的 ,如 果 经 由 该 随机 过 程 所 生成 的 时 间 序 列 
满足 下 列 条 件 。 

(1) 均值 已 (Y, ) 二 =m 是 与 时 间 : 无 关 的 常数 。 

(2) 方差 Var(Y, ) 二 5 是 与 时 间 :无 关 的 常数 。 

(3) 协 方差 Coo(Y,,Y,) = 一 gsG 一 人) 是 只 与 时 期 间隔 (s* 一 2 有关, 与 时 间 :无 关 的 常数 。 
则 称 经 由 该 随机 过 程 生 成 的 时 间 序 列 是 ( 弱 ) 平 稳 的 。 该 随机 过 程 便 是 一 个 平稳 的 随机 

【 例 10-1】 判断 白 噪声 、 随 机 游 走 过 程 的 平稳 性 。 

解 : (1) 白 噪声 的 特性 如 下 : 

Y=p, pp ~ IIN(O0,s:) 

即 白 噪 声 的 均值 为 常数 零 ,方差 为 常数 5, 所 有 时 间 间 隔 的 协 方差 均 为 零 , 满 足 平稳 性 条 件 ， 
因此 白 噪声 是 平稳 的 。 
(2) 随机 游 走 过 程 特性 





Y=Yt+p, p ~ IIN(0,s) 
其 均值 为 常数 已 (Y, ) 二 E(Y,-1) ,但 其 方差 Var (Y, ) 二 1s? 非常 数 , 所 在 随机 游 走 过 程 是 
非 平稳 的 。 
不 过 , 若 令 D(Y,)==Y, 一 Y,-1, 则 随机 游 走 过 程 的 一 阶 差分 是 平稳 的 。 
D(Y,)=Y,—Y, =p, pu ~ IIN(GO0,s’) 
一 般 地 ,在 经 济 系统 中 ,一 个 非 平稳 的 时 间 序 列 通常 可 通过 差分 变换 的 方法 转换 成 为 平 
稳 序列 。 





10.2 时间 序 列 的 组 成 因素 及 分 类 


1. 时 间 序 列 的 组 成 因素 

时 间 序 列 的 变化 受 许多 因素 的 影响 ,有 些 起 着 长 期 .决定 性 的 作用 ,使 其 呈现 出 某 种 趋 
势 和 一 定 的 规律 性 ; 有 些 则 起 着 短期 的 非 决 定性 的 作用 ,使 其 呈现 出 某 种 不 规则 性 。 在 分 
析 时 间 序 列 的 变动 规律 时 ,事实 上 不 可 能 对 每 个 因素 一 一 划分 开 来 ,分 别 去 做 精确 登记 ,但 
我 们 能 将 众多 影响 因素 按照 对 现象 变化 影响 的 类 型 ,划分 成 若干 时 间 序 列 的 构成 因素 ,然后 
对 这 几 类 构成 要 素 分 别 进行 分 析 , 以 揭示 时 间 序 列 的 变动 性 规律 。 影 响 时 间 序 列 的 构成 因 
素 可 归纳 为 以 下 四 种 。 

(1) 趋势 : 是 时 间 序 列 在 长 时 期 内 呈现 出 来 的 持续 向 上 或 持续 向 下 的 变动 。 

(2) 季节 变动 : 是 时 间 序 列 在 一 年 内 重复 出 现 的 周期 性 波动 。 它 是 诸如 气候 条 件 、 生 
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产 条 件 、 节 假日 或 人 们 的 风俗 习惯 等 各 种 因素 影响 的 结果 。 

(3) 循环 波动 : 是 时 间 序列 呈现 出 的 非 固定 长 度 的 周期 性 变动 。 循 环 波动 的 周期 可 能 
会 持续 一 段 时 间 ,但 与 趋势 不 同 , 它 不 是 朝 着 单一 方向 的 持续 变动 ,而 是 涨 落 相 同 的 交替 
波动 。 

(4) 不 规则 波动 : 是 时 间 序 列 中 除去 趋势 .季节 变动 和 周期 波动 之 后 的 随机 波动 。 不 
规则 波动 通常 总 是 夹杂 在 时 间 序 列 中 ,致使 时 间 序 列 产生 一 种 波浪 形 或 震荡 式 的 变动 。 只 
含有 随机 波动 的 序列 称 为 平稳 序列 。 

如 果 想 对 一 个 时 间 序 列 本 身 进行 较 深入 的 研究 ,把 这 些 序列 的 以 上 成 分 分 解 出 来 ,或 者 
把 它们 过 滤 掉 则 会 有 很 大 帮助 。 如 果 要 进行 预测 ,最 好 把 模型 中 的 与 以 上 成 分 有 关 的 参数 
估计 出 来 。 

2. 时 间 序 列 的 分 类 

根据 不 同 的 标准 ,时 间 序列 有 不 同 的 分 类 方法 ,常用 的 标准 及 分 类 方法 如 下 : 

(1) 按 所 研究 对 象 的 多 少 来 分 ,有 一 元 时 间 序 列 和 多 元 时 间 序 列 。 如 某 种 商品 的 销售 
量 数列 , 即 为 一 元 时 间 序 列 ; 如 果 所 研究 对 象 不 仅仅 是 一 个 数列 ,而 是 多 个 变量 ,如 按 年 、 月 
顺序 排序 的 气温 、 气 压 、 降 雨量 数据 等 ,每 个 时 刻 对 应 多 个 变量 ,这 种 序列 为 多 元 时 间 序 列 。 

(2) 按时 间 的 连续 性 可 将 时 间 序 列 分 为 离散 时 间 序 列 和 连续 时 间 序 列 两 种 。 如 果 某 一 
序列 中 的 每 一 个 序列 值 所 对 应 的 时 间 参 数 为 间断 点 , 则 该 序列 就 是 一 个 离散 时 间 序 列 ; 如 
果 某 一 序列 中 的 每 个 序列 值 所 对 应 的 时 间 参 数 为 连续 函数 , 则 该 序列 就 是 一 个 连续 时 间 
序列 。 

(3) 按 序列 的 统计 特性 分 ,有 平稳 时 间 序 列 和 非 平稳 时 间 序 列 两 类 。 所 谓 时 间 序 列 的 
平稳 性 ,是 指 时 间 序列 的 统计 规律 不 会 随时 间 的 推移 而 发 生变 化 。 平 稳 序列 的 时 序 图 直观 
上 应 该 显示 出 该 序列 始终 在 一 个 常数 的 附近 随机 波动 ,而 且 波动 的 范围 有 界 、 无 明显 趋势 及 
无 周期 特征 。 相 对 地 ,时 间 序 列 的 非 平稳 性 ,是 指 时 间 序 列 的 统计 规律 会 随 着 时 间 的 推移 而 


发 生变 化 。 
(4) 按 序列 的 分 布 规律 分 ,有 高 斯 (Guassian) 型 时 间 序 列 和 非 高 斯 (Non-Guassian) 型 
时 间 序 列 两 类 。 


(5) 时 间 序 列 按 其 所 排列 的 指标 的 表现 形式 不 同 , 可 分 为 绝对 指标 时 间 序 列 、 相 对 指标 
时 间 序 列 和 平均 指标 时 间 序 列 。 

下 面 详 细 介绍 按 排列 的 指标 的 表现 形式 不 同 所 划分 的 内 容 ,对 其 他 划分 结果 感 兴趣 的 
读者 可 自行 学 习 。 

(1) 绝对 指标 的 时 间 序 列 。 按 时 间 顺 序 将 一 系列 绝对 指标 排列 起 来 形成 的 序列 称 为 绝 
对 指标 时 间 序 列 。 用 来 反映 被 研究 现象 在 各 个 时 期 达到 的 绝对 水 平 及 其 发 展 变化 情况 。 绝 
对 指标 时 间 序 列 按 其 所 反映 资料 的 性 质 不 同 , 又 可 分 为 时 点 序列 和 时 期 序列 。 

(2) 相对 指标 的 时 间 序 列 。 相 对 指标 时 间 序 列 是 按时 间 顺 序 ,把 不 同时 期 的 相对 指标 
排列 起 来 所 形成 的 序列 。 它 反映 社会 现象 之 间 相互 关系 的 发 展 过 程 。 在 相对 指标 时 间 序 列 
中 ,由 于 各 个 指标 数值 的 基数 不 同 , 因 此 不 具有 可 加 性 。 

(3) 平均 指标 时 间 序 列 。 平 均 指标 时 间 序 列 是 按时 间 顺 序 , 把 各 个 时 期 的 平均 指标 排 
列 起 来 所 形成 的 序列 。 它 反映 社会 经 济 现象 一 般 水 平 的 发 展 过 程 和 发 展 趋势 。 平 均 指标 时 
间 序 列 中 各 个 指标 数值 也 不 具有 可 加 性 。 





RD 





10.3 时 间 序 列 分 析 方 法 


时 间 序 列 分 析 是 一 种 广泛 应 用 的 数据 分 析 方法 , 它 研究 的 是 代表 某 一 现象 的 一 串 随 时 
间 变 化 而 又 相关 联 的 数字 系列 (动态 数据 ) ,从 而 描述 和 探索 该 现象 随时 间 发 展 变化 的 规律 
性 。 时 间 序 列 的 分 析 利 用 的 手段 可 以 是 直观 简便 的 数据 图 法 ,指标 法 ,模型 法 等 。 模 型 法 相 
对 来 说 更 具体 也 更 深入 ,能 更 本 质地 了 解数 据 的 内 在 结构 和 复杂 特征 ,以 达到 控制 与 预测 的 
目的 。 总 的 来 说 ,时 间 序 列 分 析 方 法 包括 以 下 两 类 。 

(1) 平稳 时 间 序 列 分 析 方 法 : 我 们 知道 时 间 序列 的 变动 是 长 期 趋势 变动 .季节 变动 . 循 
环 变动 ,不 规则 变动 的 耦合 或 到 加 。 在 确定 性 时 间 序 列 分 析 中 通过 移动 平均 .指数 平滑 、 最 
小 二 乘 等 方法 来 体现 长 期 趋势 及 带 季节 因子 的 长 期 趋势 ,预测 未 来 的 发 展 趋势 。 

(2) 季节 指数 预测 法 : 季节 指数 法 是 指 变量 在 一 年 以 内 以 ( 季 ) 月 的 循环 为 周期 特征 ， 
通过 计算 季节 指数 达到 预测 目的 的 一 种 方法 。 其 操作 过 程 为 ,首先 分 析 判 断 时 间 序 列 数据 
是 否 呈 现 季节 性 波动 。 一 般 将 3 一 5 年 的 资料 按 ( 季 ) 月 展开 ,绘制 历史 曲线 图 ,观察 其 在 一 
年 内 有 无 周期 性 波动 来 作 判断 。 


10.3.1 平稳 时 间 序 列 分 析 方法 


平稳 性 是 用 来 描述 时 间 序 列 数 据 统 计 性 态 的 特有 术语 。 时 间 序 列 平稳 性 是 指 凭 以 推测 
经 济 系统 (或 其 相关 变量 ) 在 未 来 可 能 出 现 的 状况 , 亦 即 预测 经 济 系统 ( 或 其 相关 变量 ) 的 走 
势 , 是 我 们 建立 经 济 计量 模型 的 主要 目的 。 基 于 随机 变量 的 历史 和 现状 来 推测 其 未 来 , 则 是 
我 们 实施 经 济 计量 和 预测 的 基本 思路 。 这 就 需要 假设 随机 变量 的 历史 和 现状 具有 代表 性 或 
可 延续 性 。 换 句 话说 ,随机 变量 的 基本 特性 必须 能 在 包括 未 来 阶段 的 一 个 长 时 期 里 维持 不 
变 , 和 否则 基于 历史 和 现状 来 预测 未 来 的 思路 便 是 错误 的 。 

样本 时 间 序 列 展现 了 随机 变量 的 历史 和 现状 ,所 谓 随 机 变量 基本 性 态 的 维持 不 变 也 就 
是 要 求 样本 数据 时 间 序 列 的 本 质 特征 仍 能 延续 到 未 来 。 我 们 用 样本 时 间 序 列 的 均值 方差 、 
协 ( 自 ) 方 差 来 刻画 该 样本 时 间 序 列 的 本 质 特征 。 于 是 ,我 们 称 这 些 统计 量 的 取 值 在 未 来 仍 
能 保持 不 变 的 样本 时 间 序 列 具 有 平稳 性 。 可 见 ,一 个 平稳 的 时 间 序 列 指 的 是 : 遥想 未 来 所 
能 获得 的 样本 时 间 序 列 ,我 们 能 断定 其 均值 方差, 协 方差 必定 与 眼下 已 获得 的 样本 时 间 序 
列 等 同 。 相 反 ,如果 样 本 时 间 序 列 的 本 质 特 征 只 存在 于 所 发 生 的 当期 ,并 不 会 延续 到 未 来 ， 
亦 即 样本 时 间 序 列 的 均值 方差, 协 方差 非常 数 , 则 这 样 一 个 过 于 独特 的 时 间 序 列 不 足以 昭 
示 未 来 ,我 们 使 称 这 样 的 样本 时 间 序列 是 非 平稳 的 。 
形象 地 理解 ,平稳 性 就 是 要 求 经 由 样本 时 间 序 列 所 得 到 的 拟 合 曲线 在 未 来 的 一 段 期 间 
内 仍 能 顺 着 现 有 的 形态 “惯性 ”地 延续 下 去 ; 如 果 数 据 非 平稳 , 则 说 明 样 本 拟 合 曲线 的 形态 
不 具有 "惯性 ?延续 的 特点 ,也 就 是 基于 未 来 将 要 获得 的 样本 时 间 序 列 所 拟 合 出 来 的 曲线 将 
过 异 于 当前 的 样本 拟 合 曲线 。 

可 见 , 时 间 序 列 平稳 是 经 典 回归 分 析 赖 以 实施 的 基本 假设 ,只 有 基于 平稳 时 间 序 列 的 预 
测 才 是 有 效 的 。 如 果 数 据 非 平稳 , 则 作为 大 样本 下 统计 推断 基础 的 “一 致 性 ”要 求 便 被 破坏 ， 
基于 非 平稳 时 间 序 列 的 预测 也 就 失效 。 





10.3.2 季节 指数 预测 法 


季节 指数 法 是 根据 时 间 序 列 中 的 数据 资料 所 呈现 的 季节 变动 规律 性 ,对 预测 目标 未 来 
状况 作出 预测 的 方法 。 

在 市 场 销售 中 ,一 些 商 品 如 电 风 扇 .冷饮 .四 季 服 装 等 往往 受 季节 影响 而 出 现 销售 的 淡 
季 和 旺季 之 分 的 季节 性 变动 规律 。 掌 握 了 季节 变动 规律 ,就 可 以 利用 它 来 对 季节 性 的 商品 
进行 市 场 需 求 量 的 预测 。 

利用 季节 指数 预测 法 进行 预测 时 ,时 间 序 列 的 时 间 单 位 或 是 季 或 是 月 ,变动 循环 周期 为 
4 季 或 者 12 个 月 。 运 用 季节 指数 进行 预测 ,首先 用 统计 方法 计算 出 目标 的 季节 指数 ,以 测 
定 季节 变动 的 规律 性 。 然 后 在 已 知 季度 的 平均 值 的 条 件 下 ,预测 未 来 某 个 月 ( 季 ) 的 预测 值 。 

简单 季节 指数 法 是 根据 呈现 季节 变动 的 时 间 序 列 资料 ,用 求 算术 平均 法 直接 计算 各 月 
或 各 季节 的 指数 , 据 此 达到 预测 目的 的 一 种 方法 。 

简单 季节 指数 法 的 一 般 步骤 如 下 : 

(1) 收集 历年 (通常 至 少 三 年 ) 各 月 或 各 季 的 统计 资料 。 

(2) 求 出 各 年 同月 或 同 季 观 察 值 的 平均 数 ( 用 A 表示 )。 

(3) 求 出 历年 间 所 有 月 份 或 季度 的 平均 值 (用 B 表示 )。 

(4) 计算 各 月 或 各 季度 的 季节 指数 : C= 二 A/B。 

(5) 根据 未 来 年 度 的 全 年 趋势 预测 值 , 求 出 各 月 或 各 个 季度 的 平均 趋势 预测 值 , 然 后 乘 
以 相应 季节 指数 ,得 出 未 来 年 度 内 各 月 和 各 季度 包括 季节 变动 的 预测 值 Y= (a 十 6T)C;。 
其 中 ,C; 为 第 i 季度 的 季节 指数 (i 二 1,2,3,4) ,a 为 待定 系数 ,6b 为 待定 系数 ,T 为 预测 期 季 
度数 。 

一 年 4 个 季度 的 季度 指数 之 和 为 400%, 每 个 季度 季节 指数 平均 数 为 100%。 季 节 变 动 
表现 为 各 季节 的 季节 组 数 围绕 100% 上 下 波动 ,表明 各 季 和 销售 量 与 全 年 平均 数 的 相对 关系 。 


10.4 时 间 序 列 模型 


对 于 平稳 离散 时 间 信 号 ,常用 时 间 序 列 描述 方法 进行 研究 ,由 此 提出 时 间 序 列 模型 法 。 
它 是 采用 各 种 随机 差分 方程 表示 时 间 序 列 信号 的 模型 。 在 时 间 序 列 模型 分 析 中 , 自 回归 模 
型 滑动 平均 模型 和 自 回归 滑动 平均 模型 是 三 种 常见 的 标准 线性 模型 。 下 面 ,我 们 将 介绍 时 
间 序 列 模型 中 几 种 比较 经 典 的 模型 。 


10.4.1 ARMA 模型 


ARMA(z ,dg)( 自 回归 滑动 平均 模型 ) 是 研究 时 间 序 列 的 重要 方法 ,由 自 回归 ARCP) 模 
型 和 滑动 平均 模型 MA(g) 两 部 分 组 成 。 因 此 自 回 归 滑 动 平 均 模 型 (Auto-Regressive and 
Moving Average Model, ARMA) 比 AR 模型 与 MA 模型 有 较 精 确 的 谱 估计 及 比较 优良 的 
谱 分 辩 性 能 ,但 是 其 参数 估算 比较 烦琐 。 
自 回归 模型 (AR) 的 平稳 条 件 : 滞后 算 子 多 项 式 
p(B)=1—PBB—BB:—-.…—p,B? (10-5) 
的 根 在 单位 圆 外 , 即 PCB) 王 0 的 根 大 于 1。 


滑动 平均 模型 (MA) : 如 果 时 间 序 列 Y, 满足 
Y=€ 十 ae-l 十 azg-s 十 … 十 aei-v (10-6) 
则 称 时 间 序 列 Y, 为 服从 g 阶 移动 平均 模型 。 
移动 平均 模型 平稳 的 条 件 是 : 任何 条 件 下 都 平稳 。 
由 此 可 见 , 如 果 时 间 序 列 Y, 满足 
了 三 房 十 AY- 十 凡 Ye 十 … 十 BY 十 已 十 aas oases "ate (10-7) 
则 称 时 间 序 列 Y, 为 服从 (p,q) 阶 自 回 归 滑 动 平均 混合 模型 (ARMA), 或 者 记 为 P(B)Y, 一 
0CB)e,。 


10.4.2 ARIMA 模型 


ARIMA(p,d,q)( 自 回归 滑动 平均 求 和 模型 ) 是 一 种 比 指数 模型 更 精细 的 模型 ,是 Box- 
Jenkins 在 1987 年 引入 的 。 从 模型 的 中 文 名 字 , 我 们 大 多 可 以 了 解 到 模型 的 框架 以 及 模型 
的 基本 参数 : AR 一 一 自 回归 模型 ; P 一 一 自 回 归 项 ; MA 一 一 移动 平均 模型 ; g 一 一 移动 平 
均 项 数 ; d 则 为 时 间 序 列 成 为 平稳 时 间 序 列 所 做 的 差分 次 数 ; 工 则 为 一 个 时 间 序 列 的 周期 和 
趋势 。 

ARIMA 的 基本 思想 是 ,将 我 们 所 要 预测 的 时 间 序 列 视 为 一 个 随机 的 序列 ,然后 找 出 适 
合 数据 序列 的 模型 进行 拟 合 ,由 于 ARIMA 使 用 的 数据 序列 是 平稳 的 序列 ,也 就 是 序列 的 均 
值 .方差 和 自 协 方差 与 时 间 的 绝对 水 平 无 关 , 分 布 特征 不 变 , 我 们 所 研究 的 观测 值 可 以 看 作 
从 同一 总 体 中 抽出 的 样本 ,有 比较 成 熟 的 经 典 的 数理 统计 方法 进行 预 处 理 。 

这 样 ,可 以 适用 不 同 经 济 环境 ,具有 短期 预测 能 力 较 强 的 特点 。 

ARIMA 模型 的 实质 是 ARMA 模型 。 在 我 们 研究 时 间 序 列 的 过 程 中 ,一 个 完整 的 时 间 
序列 往往 会 由 季节 趋势 和 随机 干扰 三 个 部 分 组 成 。 如 果 我 们 能 够 把 季节 和 趋势 从 数据 序 
列 中 过 滤 掉 ,只 对 剩 下 的 建 模 进行 分 析 可 能 更 便捷 与 可 靠 。 


10.4.3 ARCH 模型 


自 回 归 条 件 异 方差 模型 (Autoregressive Conditional Heteroscedasticity,，ARCH) 由 恩 
格 尔 (Engle. R) 于 1982 年 首次 提出 ,此 后 在 计量 经 济 领域 中 得 到 迅速 发 展 ,尤其 是 在 金融 
时 间 序 列 分 析 中 。 

ARCH 模型 反映 了 随机 过 程 的 一 种 特殊 特性 , 即 方差 随时 间 变 化 而 变化 , 且 具 有 从 集 
性 波动 性 ,已 广泛 地 应 用 于 金融 领域 的 建 模 及 研究 过 程 中 。 

对 于 一 般 的 回归 模型 


y= xB+u w~ NO0,0) (10-8) 
如 果 随 机 扰动 项 的 平方 邮 服从 AR(p) 过 程 , 即 
好 一 ao 十 az 十 … 十 aoz2 十 es (10-9) 


式 中 ,s, 是 相互 独立 的 白 噪声 序列 ,并 且 se, 一 N(0, 兴 ), 则 称 模型 是 自 回归 条 件 异 方差 模型 ， 
简 记 为 ARCH 模型 , 记 作 ww 一 ARCHCP) 。 

ARCH 模型 通常 用 于 对 主体 模型 的 随机 扰动 项 进行 建 模 ,把 当期 随机 扰动 项 的 方差 设 
定 为 以 前 各 期 误差 项 平方 的 线性 函数 ,以便 充分 地 提取 残 差 中 的 信息 ,使 最 终 的 模型 残 差 项 
s: 为 白 噪声 。 


时 间 序 列 分 析 


判断 模型 残 差 序列 是 否 存 在 p 阶 的 ARCH 过 程 , 通 常 是 对 于 残 差 项 进行 拉 格 朗 日 乘 数 
检验 (ARCH LM Test) 。 


对 残 差 平方 (e, 一 y, 一 zx/ 和 进行 辅助 回归 
时 一 ao 十 me 十 … 十 ape: (10-10) 
检验 统计 量 : 下 统计 量 和 Obs * R-squared 统计 量 。 
在 不 存在 ARCH 效应 的 零 假 设 成 立 的 前 提 下 ,LM 具有 渐 近 的 x (p) 分 布 。 
给 定 显著 性 水 平 ,如 果 LM 宇 (p), 则 拒绝 零 假设 ,说 明 模 型 残 差 序 列 存在 ARCH 
过 程 。 
接 下 来 我 们 简单 介绍 一 下 ARCH 的 一 个 衍生 模型 : ARCH-M 模型 。 
金融 理论 中 经 常 认为 风险 较 大 的 资产 可 以 提供 较 高 的 平均 收益 ,这 在 金融 市 场 实 际 的 
运作 中 基本 可 以 得 到 验证 。 从 金融 计量 经 济 建 模 的 角度 来 看 ,如 果 具 有 集群 性 的 序列 其 条 
件 方差 是 风险 的 一 个 合适 的 度量 , 它 就 应 该 进入 y, 的 条 件 期 望 中 。 这 是 由 Engle、Lilien 和 
Roberts 三 人 在 1987 年 发 现 、 发 展 并 创造 的 所 谓 进入 均值 的 ARCH 模型 ,又 成 为 ARCH-M 
模型 ,其 形式 为 
y= zB+oh, tu (10-11) 
us = MVh, * wv (10-12) 
这 里 ,hh 为 u, 的 条 件 方差 。 如 果 ,的 结构 同 ARCH 模型 , 则 称 ww 服从 ARCH-M(p) 
过 程 ; 如 果 h, 的 结构 与 GARCH 同形 式 , 则 称 w 服从 GARCH-M(p,q) 过 程 。 参数 6 捕捉 
到 了 在 误差 项 u, 中 较 强 烈 的 可 感 噪声 震荡 对 w 均值 的 影响 作用 。 
假如 模型 旨 在 解释 一 项 金融 资产 (如 股票 或 债券 ) 的 回报 率 , 那 么 增加 hh 的 原因 是 每 个 
投资 者 都 期 望 资产 回报 率 是 与 风险 度 紧 密 联系 的 ,而 条 件 方差 h, 代表 了 期 望 风险 的 大 小 。 
Campbell、Lo 和 Macjinlay 在 1997 年 曾经 讨论 过 ARCH-M 模型 与 资本 资产 定价 模型 
(CAPM) 之 间 的 联系 。 


10.4.4 ”GARCH 模型 


GARCH 模型 称 为 广义 自 回归 条 件 异 方差 模型 ,是 ARCH 模型 的 拓展 。 相 比 ARCH 
模型 ,GARCH 模型 及 其 衍生 模型 更 能 反映 实际 序列 中 的 长 期 记忆 性 、 信 息 的 非 对 称 性 等 
性 质 。 

如 果 用 ARCH 模型 描述 某 些 时 间 序 列 , 阶 数 p 需要 取 一 个 很 大 的 值 时 ,通常 采用 广义 
自 回归 条 件 异 方差 模型 。 

车 ju 的 条 件 方差 c, 被 写 

对 一 ao 十 oz 十 … 十 ao 十 Oo 十 … 十 bus (10-13) 
则 称 序列 w 服从 GARCH(p.g) 过 程 。 

实际 应 用 中 ,GARCH 模型 的 阶 数 p 远 比 ARCH 模型 的 阶 数 p 要 小 ,GARCH(1,1) 模 
型 是 被 广泛 应 用 的 模型 , 它 具 有 如 下 形式 。 

一 十 az 十 bo (10-14) 
可 以 证 明 GARCH(1,1) 模 型 等 价 于 一 个 系数 呈 几 何 递减 的 无 限 阶 ARCH 模型 ,同时 , 它 也 
蕴含 着 当前 波动 的 震荡 作用 随时 间 递 减 的 规律 。 




















时 间 序 列 分 析 
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y= zB+oh, tu (10-11) 
us = MVh, * wv (10-12) 
这 里 ,hh 为 u, 的 条 件 方差 。 如 果 ,的 结构 同 ARCH 模型 , 则 称 ww 服从 ARCH-M(p) 
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Campbell、Lo 和 Macjinlay 在 1997 年 曾经 讨论 过 ARCH-M 模型 与 资本 资产 定价 模型 
(CAPM) 之 间 的 联系 。 
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105 偏差 检测 


时 间 序 列 的 检验 大 体 包括 时 间 序 列 平稳 性 检验 、 单 位 根 检验 、 差 分 和 ARMA 模型 的 确 
认 四 大 部 分 。 前 两 种 检验 作用 相同 ,都 是 通过 平稳 性 检验 确定 没有 随机 趋势 或 确定 趋势 避 
免 “ 伪 回归 ?现象 ; 差分 是 将 非 平稳 序列 转换 为 平稳 序列 ; ARMA 模型 的 确认 部 分 将 介绍 
ARMA 模型 的 确定 方法 。 

1. 时 间 序 列 平 稳 性 检验 

在 时 间 序 列 偏差 检测 部 分 ,平稳 性 的 检验 尤为 重要 ,时 间 序 列 平 稳 性 检验 常用 到 的 就 是 
图 示 法 和 自 相 关 函 数 图 示 法 , 接 下 来 将 介绍 这 两 种 检验 方法 。 

1) 图 示 法 

数据 序列 图 示 法 给 出 一 个 随机 的 时 间 序 列 , 首 先 可 以 通过 该 序列 的 实践 路 径 图 来 粗略 
地 判断 它 是 不 是 平稳 的 。 图 10-1 所 示 为 一 个 非 平稳 时 间 序 列 。 
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图 10-1 非 平稳 时 间 序 列 


一 个 平稳 的 时 间 序 列 在 图 形 上 往往 呈现 出 一 种 在 围绕 其 均值 上 下 不 断 波动 的 过 程 ,而 
非 平稳 序列 则 一 般 在 不 同 的 时 间 段 具有 不 同 的 均值 ,持续 上 升 或 持续 下 降 。 图 10-2 所 示 为 
一 个 平稳 的 时 间 序 列 。 
如 果 粗 略 地 无 法 看 出 是 否 为 平稳 的 ,我 们 可 以 进一步 验证 其 样本 自 相关 函数 及 其 图 形 。 
2) 自 相关 函数 图 示 法 
随机 时 间 序 列 的 自 相关 函数 
ex = Xr/Yo (10-15) 
可 知 自 相关 冰 数 是 关于 滞后 期 & 的 递减 函数 ,如 图 10-3 所 示 。 
在 实际 过 程 中 ,一 个 随机 过 程 只 能 计算 样本 自 相关 函数 。 
Sx, — Dx x) 
Xt = 会: 一 he (10-16) 
SUN — 


























图 10-2 平稳 时 间 序 列 
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(a) 非 平稳 序列 (b) 平 稳 序列 
图 10-3 随机 时 间 序列 的 自 相关 函数 


随 的 增加 ,样本 自 相关 函数 下 降 且 趋 于 0。 

图 10-3Ca) 为 非 平稳 序列 ,图 10-3(b) 为 平稳 序列 。 可 知 ,平稳 序列 的 下 降 速 度 要 比 非 
平稳 序列 快 得 多 。 

2. 单位 根 检 验 

单位 根 经 验 是 针对 宏观 经 济 数据 序列 ,货币 金融 数据 序列 都 具有 某 种 统计 特性 而 提出 
的 一 种 平稳 性 检验 。 在 这 里 我 们 主要 介绍 DF 检验 与 ADF 检验 。 


1) DF 检验 
检验 一 个 时 间 序 列 X, 的 平稳 性 ,可 以 通过 检验 一 个 带 有 截 距 项 的 一 阶 自 回归 模型 。 
X, 一 poX-~i 十 六 十 (10-17) 
其 中 的 参数 p 是 否 小 于 1( 反 之 p 三 1, 序 列 是 非 平 稳 的 ) ,或 者 检验 其 等 价 变形 式 
AX, = a+Xi+p (10-18) 
中 的 参数 9 是否 小 于 0。 
2) ADF 检验 
ADF 检验 涉及 三 个 重要 的 模型 。 
模型 1 


AX, = Xi 十 DBAX, ;+e (10-19) 
i=1 


挖掘 
模型 2 
AX, =at+dX i+ DBAX,i+e, (10-20) 
i=1 
模型 3 
AX, =at+pBt+odX, + DBAX, :+e, (10-21) 
i=l 


同时 估计 出 以 上 三 个 模型 的 适当 形式 , 即 在 每 个 模型 中 选取 适当 的 滞后 差分 项 ,使 模型 

的 残 差 项 是 一 个 白 噪声 (保证 不 存在 自 相 关 ) ,然后 通过 ADF 临界 值 表 检验 零 假 设 
Ho:68=0 (10-22) 

(1) 只 要 其 中 一 个 模型 的 检验 结果 拒绝 零 假 设 就 可 以 判定 时 间 序 列 是 平稳 的 。 

(2) 当 三 个 模型 的 检验 结果 都 不 能 拒绝 零 假 设 时 ,序列 为 非 平 稳 的 。 

尽管 如 此 ,在 进行 ADF 检验 时 ,仍然 有 两 个 重要 的 问题 需要 我 们 注意 。 

(1) 必须 为 回归 定义 合理 的 滞后 阶 数 ,通常 采用 AIC 准则 来 确定 给 定时 间 序 列 模型 的 
滞后 阶 数 。 在 实际 应 用 中 ,还 需要 兼顾 其 他 因素 ,如 系统 的 稳定 性 、 模 型 的 拟 合 优 度 等 。 

(2) 可 以 选择 常数 和 线性 时 间 趋 势 ,选择 哪 种 形式 很 重要 ,因为 检验 显著 水 平 的 : 统计 
量 在 原 假 设 下 渐进 分 布依 赖 于 这 些 项 的 定义 。 

【 例 10-2〗 检验 1978 一 2000 年 中 国 支出 GDP 时 间 序 列 的 平稳 性 ,数据 如 表 10-1 
所 示 。 


























表 10-1 1978 一 2000 年 中 国 支 出 GDP 单位 : 亿 元 
年 份 GDP 年 份 GDP 年 份 GDP 
1978 3605.6 1986 10132.8 1994 46690.7 
1979 4073.9 1987 11784 1995 58510.5 
1980 4551. 3 1988 14704 1996 68330. 4 
1981 4901. 4 1989 16466 1997 74894. 2 
1982 5489. 2 1990 18319.5 1998 79003. 3 
1983 6076. 3 1991 21280. 4 1999 82673. 1 
1984 7164. 4 1992 25863.6 2000 89112.5 
1985 8792.1 1993 34500.6 





























(1) 经 过 尝试 ,模型 3 中 取 2 阶 滞后 。 
AGD P, =— 1011. 33 十 229. 27T 十 0.0093GD P,i 十 1.50AGD P，_, 一 1.01AGD P,, 
(一 1.26) (1.91) (0.31) (8.94) (一 4.95) 
通过 拉 格 朗 日 乘 数 检 验 对 随机 误差 项 的 自 相关 性 进行 检验 。 
LM(1)=0. 92, LM(2)=4.16 

小 于 5% 显著 性 水 平 下 自由 度 分 别 为 1 与 2 的 x 分 布 的 临界 值 ,可 见 不 存 在 自 相 关 性 ， 
因此 该 模型 的 设 定 是 正确 的 。 

从 65 的 系数 看 ,1 二 临界 值 .不 能 拒绝 存在 单位 根 的 零 假 设 。 

时 间 工 的 t 统计 量 小 于 ADF 分 布 表 中 的 临界 值 ,因此 不 能 拒绝 不 存在 趋势 项 单位 零 假 
设 , 需 进一步 检验 模型 2。 


(2) 经 试验 ,模型 2 中 滞后 项 取 2 阶 
AGD P, = 357.45 十 0.057GD P,，, 十 1.65AGD P, 1 一 1.15AGD P,_， 
(一 0.90) (3.38) (10. 40) (一 5.63) 
LM(1)=0.57 LM(2) = 2.85 

LM 检验 表明 模型 残 差 不 存在 自 相关 性 ,因此 该 模型 的 设 定 是 正确 的 。 

从 GDP,-1 的 参数 值 看 ,其 1 统计 量 为 正 值 ,大 于 临界 值 ,不 能 拒绝 存在 单位 根 的 零 假设 。 

常数 项 的 1 统计 量 小 于 AFD 分 布 表 中 的 临界 值 ,不 能 拒绝 不 存在 常数 项 的 零 假 设 , 需 
进一步 检验 模型 1 。 

(3) 经 检验 ,模型 1 中 滞后 项 取 2 阶 

AGDP, = 0.063GD P，, 十 1.70AGD P, 1 一 1.194AGD P,, 
(4. 15) (11.46) (一 6.05) 
LM(1) = 0.17, LM(2) = 2.67 

LM 检验 表明 模型 残 差 项 不 存在 自 相 关 性 ,因此 模型 的 设 定 是 正确 的 。 

从 GDP,-1 的 参数 看 ,其 1 统计 量 为 正 值 ,大 于 临界 值 ,不 能 拒绝 存在 单位 根 的 零 假设 。 

综 上 所 述 ,中 国 支 出 GDP 时 间 序 列 是 非 平稳 的 。 

3. 差分 法 

通过 以 上 几 种 方法 我 们 实现 了 对 时 间 序 列 的 平稳 性 检验 。 在 现实 的 经 济 生活 中 ,实际 
的 时 间 序 列 数据 往往 是 非 平稳 的 ,而 且 主 要 的 经 济 变量 如 消费 收入、 价格 .汇率 常常 表现 出 
一 致 的 上 升 或 下 降 ,如果 仍 然 通过 经 典 的 因果 关系 模型 进行 分 析 ,一般 不 会 得 到 有 意义 的 
结果 ,因为 在 回归 的 过 程 中 即使 没有 任何 有 意义 的 关系 ,仍然 可 表现 出 较 高 的 可 决 系数 。 
为 了 使 所 使 用 的 ARMA 模型 有 意义 , 接 下 来 我 们 要 做 的 就 是 将 非 平稳 序列 转换 为 平稳 
序列 。 

一 阶 差分 : D(P,)=P, 一 P,_ 

二 阶 差分 : D(D(P,))=(P, 一 P,_1) 一 (Pj 一 P,-:)=P,—2P,_i+P,-; 

对 于 非 平 稳 序 列 可 以 通过 差分 法 将 其 平稳 化 ,如 果 一 阶 差 分 还 不 足以 使 时 间 序 列 平稳 
化 ,可 尝试 多 阶 差 分 ,直到 平稳 为 止 。 

4. ARMA 模型 的 确认 

确定 ARMA 模型 ,就 要 确定 其 中 的 参数 p 和 g。p 和 g 的 取 值 大 小 和 自 相关 函数 以 及 
偏 自 相关 函数 有 关 。 

(1) 通过 研究 关于 这 两 个 函数 的 acf 图 和 pacf 图 来 粗略 地 识别 模型 ,如 图 10-4 所 示 。 

(2) 通过 acf 图 和 pacf 图 的 拖 尾 和 截 尾 来 判断 ARMA 模型 ,如 表 10-2 所 示 。 


表 10-2 acf 图 和 pacf 图 




















模 型 AR(p) MA(g) ARMA(p,g) 
acf 图 形 拖 尾 在 第 9 条 后 截 尾 头 4 个 无 规律 ,之 后 拖 尾 
pacf 图 形 在 第 p 条 后 截 尾 拖 尾 头 p 条 无 规律 ,之 后 拖 尾 














拖 尾 : 在 图 上 可 显示 为 正 负 相间 的 正弦 形式 衰减 ,也 可 能 一 指数 率 衰减 。 
【 例 10-3】 现实 生活 中 , 受 多 种 不 确定 因素 的 影响 ,股票 价格 往往 随时 间 的 变化 而 变 
化 ,导致 股市 呈现 出 随机 性 和 非 线性 的 波动 趋势 ,这 无 疑 给 投资 者 带 来 巨大 的 投资 风险 。 下 
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几 图 10-4 acf 图 和 pacf 图 


面 将 以 具体 的 实例 来 说 明 如 何 利用 以 上 介绍 的 时 间 序 列 方法 进行 股票 价格 走势 的 预测 。 
本 节 所 有 代码 均 为 MATLAB 代码 ,读者 可 自行 转化 为 R 运行 代码 进行 学 习 。 
@ 读 取 股 票数 据 
clc,clear all,close all 
Y=xlsread('sdata', 'sheet]l', 'El: E227'); 
N= length (Y) 7 


@ 原始 数据 可 视 化 


figure (1) 

Plot (Y) ;xlim([1,N]) 

set (gca, 'XTick', [1:18:N]) 

title(' 原 始 股票 价格 ') 

ylabel(' 元 ') 

程序 执行 后 ,会 得 到 如 图 10-5 所 示 的 股票 价格 走势 图 。 从 图 中 可 以 看 出 ,股票 的 价格 
有 些 规律 , 即 周期 性 上 升 ,为 此 可 以 考虑 用 时 间 序 列 来 建立 股票 走势 的 模型 。 

@ 建立 ARIMA 模型 

由 于 ARIMA 模型 具有 较 强 的 适应 性 ,可 以 尝试 用 该 模型 建立 该 股票 的 时 间 序 列 模型 ， 
具体 代码 如 下 : 


model=arima ('Constant', 0, 'D',1,'Seasonality',12,... 





原始 股票 价格 
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图 10-5 ”股票 价格 走势 图 


‘MALags', 1, 'SMALags', 12) 

YO0=Y(1:13); 

[fit,VarCov]=eastimate (model,Y (14:end),'Y0',Y0); 

# 代 码 执行 后 ,得 到 以 下 ARIMA 模 型 参数 

model= 
ARIMA (0,1,1) Model Seasonally Integrated with Seasonal MA(12); 
Distribution:Name= 'Gausian' 


P:13 
D:1 
13 
constant:0 
AR:{} 
SAR:{} 


MA: {NaN} at Lags [1] 
SMA: {NaN} at Lags [12] 
Seasonality:12 
Variance:NaN 
ARIMA (0,1,1) Model Seasonally Integrated with Seasonal MA(12): 
Conditional Probability Distribution:Gaussian 
Standard 二 
Parameter Value Error Statistic 
Constant 0 Fixed Fixed 
MA{1} 0.0654479 0.0706347 0.926568 
SMA{12} -0.78655 0.0370049 -21.2553 
Variance 0.00972519 0.000703112 13.8316 


团 评估 预测 效果 


Yl=Y(1:100); 

Y2=Y (101:end); 

YE1= forecast (fit, 100,'Y0', Y1); 
figure (2) 

plot (1:N,Y,'b', 'LinWidth',2) 
hold on 


plot (101:200,Yfl,'"K--' ,LineWidth',1.5) 
xlim([0,200]) 

title('Prediction Error') 

legend('Observed', 'Forecast', 'Location', 'NorthWest') 
hold off 


程序 运行 后 ,产生 如 图 10-6 所 示 的 股票 实际 走势 与 预测 走势 比较 图 。 从 图 中 可 以 看 
出 ,两 者 总 的 趋势 是 一 致 的 ,但 波动 周期 波动 幅度 差异 较 大 。 这 说 明 时 间 序 列 能 在 一 定 程 
度 上 反映 股票 的 走势 情况 ,但 同时 也 说 明 ,现实 中 股价 的 变化 情况 具有 较 强 的 无 序 、 随 机 
得 到 特征 。 这 也 是 比较 客观 的 ,因为 时 间 序 列 模型 是 经 过 抽象 后 形成 的 比较 完美 的 模 
型 ,而 现实 世界 的 股价 则 是 完全 自由 的 ,用 完美 .固定 的 模型 智能 刻画 现实 数据 的 部 分 
特征 。 


Prcdiction Error 


一 Observed 
Orecast 
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图 10-6 ”股票 实际 走势 与 预测 走势 比较 图 


@ 预测 未 来 股票 趋势 


[YEf,YMSE]= forecast (fit, 60, 'Y0', 'Y'); 
upper=Yf+1.96* sqrt (YMASS); 

lower=Yf-1.96* sqrt (YMASS); 

figure (3) 

plot (Y, 'b') 

hold on 

hl=plot (N+ 1:N+ 60,Yf, 'r', 'LineWith', 2); 

h2= plot (N+ 1:N+ 60, upper, 'k-—', 'LineWith',1.5); 
Plot (N+ 1:N+ 60, lower, 'k-—', 'LineWith',1.5) 
Xxlim([0,N+ 60]) 

title('95% 置信 区 间 ') 

legend ([h1,h2], 'Forecast','95% Interval','Location', 'NorthWest') 
hold off 


这 里 得 到 的 是 用 已 经 训练 的 模型 对 未 来 股价 预测 后 的 结果 ,如 图 10-7 所 示 , 同 时 还 得 
到 股价 95 阁 的 置信 波动 区 间 ,这 说 明 股 价 的 可 能 波动 范围 。 从 图 中 可 以 看 出 ,预测 时 间 越 
长 ,结果 越 不 准 , 所 以 在 用 时 间 序 列 预测 时 ,尽量 不 要 将 预测 时 间 设 置 得 太 长 ,原则 上 预测 时 


间 不 宜 超过 时 间 序 列 数据 对 应 时 间 的 10%, 也 就 是 向 后 推 延 的 时 间 不 超过 历史 时 间 
的 10%。 


95% 置 信 区 间 


Forecast 
95% Interval 
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图 10-7 已 经 训练 的 模型 对 未 来 股价 预测 后 的 结果 


从 该 案例 我 们 也 可 以 体会 到 ,股价 数据 随机 性 较 强 ,噪声 偏 多 ,时 间 序 列 方法 可 在 一 定 
程度 上 反映 股价 的 走势 ,对 投资 具有 一 定 的 指导 意义 ,同时 也 说 明 ,影响 股价 的 因素 很 多 ,各 
种 各 样 非 市 场 的 因素 往往 左右 着 股价 的 整个 走势 ,这 在 一 个 成 熟 市 场 是 不 应 该 出 现 的 ,从 而 
充分 说 明 我 国 股市 还 存在 一 定 弊端 。 对 广大 投资 者 而 言 ,要 努力 提高 自身 素质 ,减少 对 股票 
的 盲目 侥幸 认识 ,培养 应 有 的 投资 意识 ; 对 股市 的 研究 人 员 ,应 该 敞开 门路 ,积极 吸收 西方 
发 达 国 家 成 熟 股市 的 先进 经 验 和 理论 ,运用 于 我 国 股票 市 场 ,以 起 到 理论 带动 实践 发 展 的 
作用 。 


小 结 


本 章 我 们 介绍 了 时 间 序 列 的 基本 概念 及 相关 理论 ,说 明了 平稳 时 间 序 列 分 析 方 法 和 季 
季 指 数 预测 法 两 种 常用 的 分 析 方 法 ,进而 介绍 了 自 回 归 滑 动 平 均 模型 (ARMA)、 自 回归 滑 
动 平均 求 和 模型 (ARIMA)、 自 回归 条 件 异 方差 模型 (ARCH) ,广义 自 回 归 条 件 异 方差 模型 
(GARCH) ,并 深入 分 析 了 这 些 模型 的 性 质 , 然 后 讨论 了 时 间 序 列 的 偏差 检测 方法 ,最 后 通 
过 具体 实例 说 明 模 型 及 方法 的 应 用 。 
回 
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1. 填空 题 
(1) 时 间 序 列 是 指 将 某 种 现象 某 一 个 统计 指标 在 的 各 个 数值 , 按 排 
列 而 形成 的 序列 。 
(2) 在 时 间 序 列 模型 分 析 中 ， i 和 是 三 种 常见 的 标准 线性 
模型 。 
(3) 时 间 序 列 的 检验 大 体 包括 时 间 序 列 总 和 四 大 
部 分 。 
(4) 单位 根 的 检验 方法 有 和 
(5) DF 检验 的 零 假 设 是 说 被 检验 的 时 间 序 列 
(6) 平稳 性 检验 的 方法 有 和 
(7) 影响 时 间 序 列 的 构成 因素 为 : 趋势 、 \ 循 环 波动 和 
(8) 时 间 的 连续 性 可 将 时 间 序 列 分 为 和 5 
(9) 平稳 的 时 间 序 列 是 可 以 断定 其 样本 时 间 序 列 的 和 与 
现在 获得 的 样本 时 间 序 列 等 同 。 
(10) 研究 时 间 序 列 的 重要 方法 为 ARMA, 它 是 由 和 部 分 组 成 。 
2. 选择 题 
(1) 时 间 序 列 在 一 年 内 重复 出 现 的 周期 性 波动 称 为 ( Na 
A. 长 期 趋势 B. 季节 变动 C. 循环 变动 D. 随机 变动 
(2) 时 间 数 列 与 变量 数列 ( ) 。 
A. 都 是 根据 时 间 顺 序 排列 的 
B. 都 是 根据 变量 值 大 小 排列 的 
C. 前 者 是 根据 时 间 顺 序 排列 的 ,后 者 是 根据 变量 值 大 小 排列 的 
D. 前 者 是 根据 变量 值 大 小 排列 的 .后 者 是 根据 时 间 顺 序 排列 的 
(3) 时 间 序 列 分 为 离散 时 间 序 列 和 连续 时 间 序 列 两 种 ,其 根据 的 依据 是 ( . 




















A. 研究 对 象 的 多 少 B. 时 间 的 连续 性 

C. 序列 的 统计 特性 D. 序列 的 分 布 规律 
(4) 当 随 机 误差 项 存在 自 相关 时 ,进行 单位 根 检验 是 由 ( ) 来 实现 的 。 

A. DF 检验 B. ADF 检验 C. EG 检验 D. DW 检验 
(5) 随机 游 走 序列 是 ( ) 序 列 。 

A. 平稳 序列 


B. 非 平稳 序列 

C. 统计 规律 随时 间 的 位 移 而 发 生变 化 的 序列 

D. 统计 规律 不 随时 间 的 位 移 而 发 生变 化 的 序列 
(6) 当时 间 序 列 是 非 平稳 的 时 候 ,( Ne 

A. 均值 函数 不 再 是 常数 

B. 方差 函数 不 再 是 常数 


次 


时 间 序 列 分 析 


C. 自 协 方差 函数 不 再 是 常数 

D. 时 间 序 列 的 统计 规律 随时 间 的 位 移 而 发 生变 化 
(7) 下 面 可 以 做 单位 根 检验 的 有 :( Ss 

A. DF 检验 B.ADF 检验 C. EG 检验 D. DW 检验 
(8) 有 关 DF 检验 的 说 法 正确 的 是 :( Ds 

A. DF 检验 的 零 假设 是 “被 检验 时 间 序 列 平稳 ” 

B. DF 检验 的 零 假设 是 “被 检验 时 间 序 列 非 平稳 ” 

C. DF 检验 是 单 侧 检验 

D. DF 检验 是 双 侧 检验 
(9) 某 一 时 间 序 列 经 一 次 差分 变换 成 平稳 时 间 序 列 , 此 时 间 序 列 成 为 :( 5 


A. 1 阶 单 整 B. 2 阶 单 整 
C. K 阶 单 整 D. 以 上 答案 均 不 正确 


(10) 空调 的 销售 量 一 般 在 夏季 前 期 最 多 ,主要 原因 是 空调 的 供求 ( ) ,可 以 通过 计 
) 来 测定 夏季 期 间 空 调 的 销售 量 高 于 平时 的 幅度 。 
A. 受气 候 变化 的 影响 ,循环 指数 
B. 受 经 济 政策 调整 的 影响 ,循环 指数 
C. 受 自然 界 季节 变化 的 影响 ,季节 指数 
D. 受 消费 者 心理 的 影响 ,季节 指数 
(11) 时 间 序 列 中 的 发 展 水 平 ( 3 


A. 只 能 是 绝对 数 B. 只 能 是 相对 数 
C. 只 能 是 平均 数 D. 上 述 三 种 指标 均 可 
3. 简 答题 


(1) 时 间 序 列 分 析 方 法 分 为 几 类 ?它们 有 什么 区 别 ? 

(2) 请 描述 平稳 时 间 序 列 的 条 件 。 

(3) 如 何 将 非 平稳 序列 转换 为 平稳 序列 (利用 差分 法 )? 

(4) 简 述 引入 随机 过 程 和 随机 时 间 序 列 概念 的 意义 。 

(5) 简 述 DF 检验 和 ADF 检验 的 适用 条 件 。 

(6) 单位 根 检验 为 什么 从 DF 检验 发 展 到 ADF 检验 ? 

(7) 简 述 时 间 序 列 的 四 种 成 分 。 

(8) (拓展 ) 案 例 分 析 题 : 这 个 文件 (http://robjhyndman. comyVtsdldata/misc/kinqs. 


dat) 包 含 从 威廉 一 世 开始 的 英国 国王 的 去 世 年 龄 数据 。 将 数据 输入 表格 中 ,再 进行 调用 ,并 
分 析 案 例 中 预测 的 相关 信息 。 


大 数据 挖掘 可 视 化 


【内 容 摘要 】 大 数据 可 视 化 能 够 帮助 大 数据 获得 完整 的 数据 视图 并 挖掘 数据 的 价值 ， 
是 当前 大 数据 挖掘 的 研究 重点 之 一 。 本 章 介 绍 了 大 数据 挖掘 可 视 化 的 相关 知识 ,主要 包括 
常规 数据 可 视 化 方法 、 数 据 可 视 化 技术 及 常用 可 视 化 工具 等 ,并 对 大 数据 可 视 化 存在 的 问 
题 、 发 展 趋势 及 面临 的 挑战 进行 了 简 述 。 

【学 习 目 标 】 理解 大 数据 挖掘 可 视 化 的 基本 概念 .了 解数 据 可 视 化 技术 以 及 大 数据 挖 
据 可 视 化 存在 的 问题 ,掌握 几 种 常用 可 视 化 工具 的 使 用 。 


11.1 大 数据 挖掘 可 视 化 概述 


大 数据 挖掘 分 析 的 有 效应 用 可 以 提升 全 人 类 生产 、 交 易 、 融 资 和 流通 等 各 个 环节 的 效 
率 。 大 数据 可 视 化 是 实现 大 数据 挖掘 分 析 价值 的 重要 一 环 。 

在 简化 数据 量 和 降低 大 数据 应 用 的 复杂 过 程 中 ,大 数据 可 视 化 发 挥 着 关键 作用 。 它 能 
够 帮助 大 数据 获得 完整 的 数据 视图 并 挖掘 数据 的 价值 。 大 数据 可 视 化 是 利用 视觉 的 方式 将 
那些 巨大 的 、 复 杂 的 、 枯 燥 的 、 潜 逻辑 的 数据 展现 出 来 ,通过 地 理 空间 .时 间 序 列 和 好 辑 关系 
等 不 同 维度 ,使 用 户 在 短 时 间 内 理解 数据 背后 的 规律 与 价值 , 它 是 探讨 ,交流 和 洞察 数据 的 
最 佳 方式 。 

数据 可 视 化 的 狭义 定义 是 : 利用 计算 机 图 形 学 和 图 像 处 理 技术 ,将 数据 转换 为 图 形 或 
图 像 在 屏幕 上 显示 出 来 ,并 进行 各 种 交互 处 理 的 理论 .方法 和 技术 。 

数据 可 视 化 的 广义 定义 是 : 一 切 能 够 把 抽象 .枯燥 或 难以 理解 的 内 容 , 包 括 看 似 毫 无 意 
义 的 数据 \ 信 息 、 知 识 等 以 一 种 容易 理解 的 视觉 方式 展示 出 来 的 技术 。 

数据 可 视 化 技术 涉及 计算 机 图 形 学 、 图 像 处 理 、 计 算 机 视觉 \ 计 算 机 辅助 设计 等 多 个 领 
域 ,成 为 研究 数据 表示 ,数据 处 理 、 决 策 分 析 等 一 系列 问题 的 综合 技术 。 

数据 可 视 化 过 程 实现 是 指 将 大 型 数据 集中 的 数据 以 图 形 图 像 形式 表示 ,并 利用 数据 分 
析 和 开发 工具 发 现 其 中 未 知 信息 的 处 理 过 程 。 

关于 数据 可 视 化 的 定义 有 很 多 ,而 在 大 数据 分 析 工 具 和 软件 中 提 到 的 数据 可 视 化 是 针 
对 大 数据 量 运 用 计算 机 图 形 学 、 图 像 人 机 交互 等 技术 ,将 采集 或 模拟 的 数据 映射 为 可 识别 
的 图 形 、 图 像 ,用 以 知识 发 现 与 表 证 。 挖掘 过 程 可 视 化 是 指 用 可 视 化 形式 描述 各 种 挖掘 过 
程 , 通 过 可 视 化 的 描述 ,用 户 从 中 可 看 出 数据 从 哪个 数据 仓库 或 数据 库 中 抽取 出 来 ,怎样 抽 
取 以 及 怎样 预 处 理 ,怎样 挖掘 等 。 

大 数据 可 视 化 系统 是 与 用 户 直接 对 话 、 帮 助 用 户 完成 决策 的 载体 工具 ,一 个 优秀 的 数据 


可 视 化 系统 ,隐藏 着 大 数据 整个 产业 链 领 域 的 融会 贯通 , 它 的 关键 技术 从 数据 清理 集成 ,到 
数据 存储 整合 ,再 到 数据 分 析 挖掘 ,之 后 进行 可 视 化 呈现 ,最 终 完成 人 机 交互 的 完美 体验 , 整 
个 过 程 缺 一 不 可 。 大 数据 的 挑战 在 于 数据 采集 、 存 储 、 分 析 、 共 享 、 搜 索 和 可 视 化 。 可 视 化 被 
认为 是 大 数据 的 “前 沿 ”。 

大 数据 可 视 化 改变 了 传统 业务 系统 数据 呈现 复杂 枯燥 、 难 以 理解 的 困境 ,实现 了 信息 的 
有 效 传达 ,将 艺术 性 与 功能 性 并 重 , 通 过 多 样 、 恰 当 、 精 细 的 展现 与 交互 方式 ,高 效能 地 呈现 
出 数据 背后 隐藏 的 趋势 .规律 和 关系 。 


11.1.1 常规 数据 可 视 化 方法 


传统 的 数据 可 视 化 方法 有 表格 、 直 方 图 、 散 点 图 、 折 线 图 、 柱 状 图 、 饼 图 、 面 积 图 、 流 程 图 、 
泡沫 图 表 、 时 间 线 , 维 恩 图 、 数 据 流 图 等 。 此 外 ,一 些 数 据 可 视 化 方法 (如 平行 坐标 式 、 树 状 
图 、 锥 形 树 图 和 语义 网 络 等 ) 也 经 常 被 使 用 。 

1. 数据 可 视 化 参考 模型 

图 11-1 所 示 是 数据 可 视 化 参考 模型 , 它 反映 的 是 一 系列 的 数据 的 转换 过 程 。 


(1) 首先 通过 对 原始 数据 进行 标准 化 ` 结 构 化 的 
处 理 , 把 它们 整理 成 数据 表 。 Cone) 
(2) 将 这 些 数 值 转换 成 视觉 结构 (包括 形状 、 位 
置 , 尺 寸 . 值 方向、 色彩、 纹理 等 ), 通 过 视觉 的 方式 把 2 3 


它 表现 出 来 。 例 如 ,将 高 .中 、 低 的 风险 转换 成 红 、 黄 、 
蓝 等 色彩 ,数值 转换 成 大 小 。 

(3) 将 视觉 结构 进行 组 合 , 把 它 转换 成 图 形 传递 
给 用 户 ,用 户 通 过 人 机 交互 的 方式 进行 反 向 转换 ,去 ES 
更 好 地 了 解数 据 背 后 有 什么 问题 和 规律 。 

2. 常规 数据 可 视 化 的 方法 

表示 常规 数据 可 视 化 的 方法 如 下 。 

(1) 面积 和 尺寸 可 视 化 : 对 同一 类 图 形 , 例 如 柱状 ` 圆 环 和 蜘蛛 图 等 的 长 度 、 高 度 或 面 
积 加 以 区 别 , 来 清晰 地 表达 不 同 指标 对 应 的 指标 值 之 间 的 对 比 。 

(2) 颜色 可 视 化 : 通过 颜色 的 深浅 来 表达 指标 值 的 强 弱 和 大 小 ,用 户 一 眼看 上 去 便 可 
整体 看 出 哪 一 部 分 指标 的 数据 值 更 突出 ,是 数据 可 视 化 设计 的 常用 方法 。 

(3) 图 形 可 视 化 : 在 设计 指标 及 数据 时 ,使 用 有 对 应 实际 含义 的 图 形 来 结合 呈现 ,会 使 
数据 图 表 更 加 生动 地 被 展现 ,更 便于 用 户 理解 图 表 要 表达 的 主题 。 

(4) 地 域 空间 可 视 化 : 指 当 指标 数据 要 表达 的 主题 跟 地 域 有 关联 时 ,一 般 会 选择 用 地 
图 作为 大 背景 。 这 样 用 户 可 以 直观 地 了 解 整体 的 数据 情况 ,同时 也 可 以 根据 地 理 位 置 快速 
定位 到 某 一 地 区 来 查看 详细 数据 。 

(5) 概念 可 视 化 : 将 抽象 的 指标 数据 转换 成 熟悉 的 容易 感知 的 数据 后 ,用 户 更 容易 理 

大 数据 可 视 化 的 步骤 与 传统 的 数据 可 视 化 的 不 同 点 。 

以 上 可 视 化 数据 的 传统 方式 是 以 图 表 、 仪 表 板 和 摘要 报告 为 基础 。 这 些 传统 的 方法 在 
大 数据 时 代 并 不 能 满足 实际 需求 。 大 数据 可 视 化 的 步骤 与 一 般 数 据 可 视 化 基本 一 致 ,但 也 


图 11-1 可 视 化 参考 模型 








有 需要 处 理 的 不 同 点 。 

(1) 数据 采集 : 数据 是 可 视 化 对 象 ,可 以 通过 仪器 采样 、 网 络 资源 、 模 拟 计 算 等 方式 采 
集 。 对 数据 的 理解 与 采集 的 方式 需要 按照 大 数据 的 特点 与 方法 进行 ,在 可 视 化 解决 方案 中 
了 解数 据 来 源 采集 方法 和 数据 属性 并 进行 数据 字段 的 选择 是 非常 重要 的 。 

(2) 数据 处 理 和 变换 : 原始 数据 含有 噪音 和 误差 ,同时 数据 模式 和 特征 往往 被 隐藏 。 
通过 去 噪 ,数据 清洗 .提取 特征 等 ,可 将 数据 变换 为 用 户 可 理解 的 模式 。 此 处 ,需要 按 大 数据 
的 特点 进行 数据 ETL 处 理 。 

(3) 可 视 化 映射 : 此 部 分 是 核心 内 容 , 将 数据 的 数值 .空间 坐标 \ 不 同位 置 数据 间 的 联 
系 等 映射 为 可 视 化 视觉 通道 的 不 同 元 素 , 如 标记 位 置 .形状 、 大 小 和 颜色 等 ,最 终 让 用 户 通 
过 可 视 化 洞察 数据 和 数据 背后 隐 含 的 现象 和 规律 。 

(4) 用 户 感知 : 用 户 感知 从 数据 可 视 化 结果 中 提取 信息 、 知 识 和 灵感 。 大 数据 可 视 化 
可 用 于 从 数据 中 挖掘 新 的 知识 ,发 现 潜在 的 关联 ,并 进行 预测 。 


11.1.2 大 数据 可 视 化 趋势 与 应 用 


通过 可 视 化 视觉 的 方式 使 纷繁 复杂 的 大 数据 易于 理解 ,帮助 人 们 快速 .轻松 地 提取 数据 
中 的 含义 ,直观 展示 数据 的 模式 、 趋 势 和 相关 性 。 大 数据 可 视 化 是 大 数据 内 在 价值 的 最 终 呈 
现 手段 , 它 利用 各 类 图 表 、 趋 势 图 ,视觉 效果 将 巨大 的 、 复 杂 的 、 枯 燥 的 、 潜 迎 辑 的 数据 展现 出 
来 ,使 用 户 发 现 内 在 规律 ,进行 深度 挖掘 ,指导 决策 。 

1. 大 数据 可 视 化 的 典型 需求 

可 视 化 作为 展示 数据 的 变化 方法 ,必须 随 着 大 数据 分 析 控 掘 产生 的 需求 而 变化 。 大 数 
据 可 视 化 的 典型 需求 有 : 

(1) 执行 流 数 据 的 实时 分 析 和 显示 。 

(2) 基于 上 下 文 ,以 交互 方式 挖掘 数据 。 

(3) 执行 高 级 搜索 ,并 获得 建议 。 

(4) 并 行 可 视 化 信息 展示 。 

(5) 获得 先进 的 硬件 ,支持 未 来 的 可 视 化 需求 。 

2. 大 数据 可 视 化 趋势 

未 来 ,大 数据 可 视 化 不 再 仅 是 静态 的 仪表 盘 , 不 再 仅 是 数据 的 图 形 展现 ,而 是 开启 了 通 
过 数据 交互 ,与 数据 对 话 的 新 时 代 。 数 据 在 大 数据 可 视 化 系统 的 作用 不 再 仅仅 是 呈现 ,而 是 
被 赋予 了 发 现 的 价值 ,大 数据 可 视 化 趋势 包括 : 

(1) 多 视图 整合 ,探索 不 同 维度 的 数据 关系 。 通 过 专业 的 统计 数据 分 析 系 统 设计 方法 ， 
理 清 海量 数据 指标 与 维度 , 按 主 题 \ 成 体系 呈现 复杂 数据 背后 的 联系 ,将 多 个 视图 整合 ; 展 
示 同 一 数据 在 不 同 维度 下 呈现 的 数据 背后 的 规律 ,帮助 用 户 从 不 同 角度 分 析 数 据 ,缩小 答案 
的 范围 并 展示 数据 的 不 同 影响 ; 具备 显示 结果 的 形象 化 和 使 用 过 程 的 互动 性 ,便于 用 户 及 
时 捕捉 其 关注 的 数据 信息 。 

(2) 所 有 数据 视图 交互 联动 。 将 数据 图 片 转化 为 数据 查询 ,每 一 项 数据 在 不 同 维度 指 
标 下 交互 联动 ,展示 数据 在 不 同 角度 的 走势 .比例 .关系 ,帮助 使 用 者 识别 趋势 ,发 现 数据 背 
后 的 知识 与 规律 。 除 了 原 有 的 饼 状 图 、 柱 形 图 、 热 图 、 地 理 信 息 图 等 数据 展现 方式 ,还 可 以 通过 
图 像 的 颜色 亮度 、 大 小 \ 形 状 、 运 动 趋势 等 多 种 方式 在 一 系列 图 形 中 对 数据 进行 分 析 , 帮 助 用 

















户 通过 交互 控 气 数据 之 间 的 关联 。 支 持 数据 的 上 钻 下 探 ` 多 维 并 行 分 析 , 利 用 数据 推动 决策 。 

(3) 强大 的 大 屏 展示 功能 。 支 持 主 从 屏 联动 、 多 屏 联动 、 自 动 翻 屏 等 大 屏 展示 功能 ,可 
实现 高 达 上 万 分 辨 率 的 超 清 输出 ,并 且 具 备 优异 的 显示 加 速 性 能 ,支持 触 控 交 互 ,满足 用 户 
的 不 同 展示 需求 。 可 以 将 同一 主题 下 的 多 种 形式 的 数据 综合 展现 在 同一 个 或 分 别 展示 在 几 
个 高 分 辩 率 界面 之 内 ,实现 多 种 数据 的 同步 跟踪 、 切 换 。 同 时 提供 大 屏幕 触 控 屏 ,作为 大 屏 
监控 内 容 的 中 控 台 ,通过 简单 的 触 控 操作 即 可 实现 大 屏 展现 内 容 的 查询 、 缩 放 、 切 换 , 全 方位 
展示 企业 信息 化 水 准 。 

3. 大 数据 可 视 化 特点 

大 数据 可 视 化 方法 作为 知识 发 现 的 新 技术 ,有 3 个 鲜明 的 特点 。 

(1) 与 用 户 的 交互 性 强 。 用 户 不 只 是 信息 传播 中 的 接收 者 ,还 可 以 方便 地 以 交互 的 方 
式 管 理 和 开发 数据 。 

(2) 数据 显示 的 多 维 性 。 在 可 视 化 的 分 析 下 ,数据 将 每 一 维 的 值 分 类 ,排序 .组合 和 显 
示 , 这 样 就 可 以 看 到 表示 对 象 或 事件 的 数据 的 多 个 属性 或 变量 。 

(3) 最 直观 的 可 视 性 特点 。 数 据 可 以 用 图 像 .曲线 .二 维 图 形 三维 体 和 动画 来 显示 ,并 
可 对 其 模式 和 相互 关系 进行 可 视 化 分 析 。 

4. 大 数据 可 视 化 误区 

大 数据 可 视 化 是 正确 理解 数据 信息 的 最 好 方法 ,甚至 是 唯一 方式 。 出 色 的 可 视 化 可 使 
用 户 关注 的 事情 一 目 了 然 ,并 可 以 快速 给 出 建议 。 在 大 数据 时 代 , 如 果 数 据 展 示 的 方法 不 
对 ,可 能 会 破坏 数据 可 视 化 效果 。 为 了 避免 失误 ,最 好 的 方法 是 专注 于 挖掘 目标 。 在 可 视 化 
应 用 之 前 就 应 该 考虑 : 我 们 关心 什么 ?需要 做 什么 ? 要 解决 什么 问题 ?要 看 到 怎样 的 数 
据 ? 以 怎样 的 结构 和 关系 来 展示 ? 要 突出 哪些 数据 ? 当 理 清 这 些 问 题 时 ,就 可 以 进行 数据 
可 视 化 的 设计 或 者 应 用 了 。 有 以 下 误区 需要 注意 : 

(1) 显示 所 有 的 数据 。 数 据 可 视 化 是 把 重要 数据 做 了 趣味 化 的 展示 处 理 。 让 用 户 做 一 
个 有 效 排序 ,哪些 是 优先 处 理 , 哪 些 需 要 延 后 处 理 , 而 不 是 把 无 关 的 数据 全 部 显示 在 页 面 上 ， 
从 而 造成 用 户 很 难 找到 有 价值 的 信息 。 

(2) 显示 错误 的 数据 。 显 示 错 误 的 数据 和 显示 所 有 的 数据 同样 存在 隐 性 危机 。 在 数据 
可 视 化 操作 中 ,显示 的 信息 子 集 与 数据 是 相关 的 关系 。 在 多 维 数据 中 ,如 何 正确 地 进行 数据 
属性 选择 是 保证 最 终结 果 的 关键 。 

(3) 美化 数据 展示 结果 。 要 想 美化 数据 展示 ,在 处 理 关 键 数 据 字 与 段 之 间 的 关系 时 ,就 
应 该 考虑 把 指定 字段 加 在 坐标 轴 上 。 按 照 组 别 、 类 别 、 数 据 时 间 、 数 据 量 级 和 重要 性 进行 划 
分 ,尤其 是 颜色 类 别 一 定 要 有 ,并 且 可 以 自 定义 亮度 和 饱和 度 , 确 保 在 使 用 本 标签 或 者 其 他 
标签 的 时 候 做 到 准确 无 误 。 

5. 大 数据 可 视 化 应 用 

目前 ,大 数据 可 视 化 应 用 包括 数据 分 析 可 视 化 、 趋 势 可 视 化 、 工 业 生产 可 视 化 等 3 种 常 
见 的 形式 。 

(1) 数据 分 析 可 视 化 一 一 提升 用 户 的 决策 效率 。 数 据 分 析 可 视 化 广泛 用 于 商业 智能 、 
政府 决策 .公众 服务 ,市场 营 销 等 领域 ,如 将 企业 经 营 所 产生 的 所 有 有 价值 的 数据 集中 在 一 
个 系统 里 集中 体现 ,并 进行 企业 的 财务 分 析 、 供 应 链 分 析 、 销 售 生产 分 析 、 客 户 关 系 分 析 等 。 
通过 采集 相关 数据 ,进行 加 工 并 从 中 提取 有 商业 价值 的 信息 ,服务 于 管理 层 、 业 务 层 , 指 导 经 





营 决 策 。 数 据 分 析 可 视 化 负责 直接 与 决策 者 进行 交互 ,实现 数据 的 浏览 和 分 析 等 操作 的 可 
视 化 、 交 互 式 的 应 用 。 它 对 于 决策 人 获取 决策 依据 .进行 科学 的 数据 分 析 、 辅 助 决策 人 员 进 
行 科学 决策 显得 十 分 重要 。 因 此 ,数据 分 析 可 视 化 对 于 提升 组 织 决策 的 判断 力 、\ 整 合 优化 企 
业 信息 资源 和 服务 ,提高 决策 人 员 的 工作 效率 等 具有 重要 意义 。 

(2) 趋势 可 视 化 一 有 效 支撑 科学 判断 。 趋 势 可 视 化 是 在 特定 环境 中 ,对 随时 间 推 移 
而 不 断 动 作 并 变化 的 目标 实体 进行 觉察 . 认 知 、 理 解 , 最 终 展 示 整 体态 势 。 此 类 大 数据 可 视 
化 应 用 通过 建立 复杂 的 仿真 环境 ,通过 大 量 数据 多 维度 的 积累 ,可 以 直观 灵活、 逼真 地 展示 
宏观 态势 ,从 而 让 决策 者 很 快 掌握 某 一 领域 的 整体 态势 特征, 从 而 做 出 科学 判断 和 决策 。 
趋势 可 视 化 可 应 用 于 卫星 运行 监测 、 航 班 运行 情况 、 气 候 天 气 、 股 票 交 易 、 交 通 监控 、 用 电 情 
况 等 众多 领域 。 例 如 ,卫星 可 视 化 可 以 通过 将 太空 内 所 有 卫星 的 运行 数据 进行 可 视 化 展示 ， 
使 大 众 可 以 清楚 地 看 到 卫星 运行 。 气 候 天 气 可 视 化 可 以 将 该 地 区 的 大 气 气象 数据 进行 展 
示 , 让 用 户 清楚 地 看 到 天 气 变 化 。 

(3) 工业 生产 可 视 化 一 一 新 一 轮 制 造 革 命 的 核心 竞争 力 。 工 业 企业 中 的 生产 线 处 于 高 
速 运转 ,由 工业 设备 所 产生 、 采 集 和 处 理 的 数据 量 远大 于 企业 中 计算 机 和 人 工 产生 的 数据 ， 
生产 线 的 高 速 运转 对 数据 的 实时 性 要 求 也 更 高 。 破 解 这 些 大 数据 是 企业 在 新 一 轮 制 造 革命 
中 赢得 竞争 力 的 钥匙 。 因 此 ,工业 生产 可 视 化 系统 是 工业 制造 业 的 最 佳 选择 。 工 业 生 产 可 
视 化 是 将 虚拟 现实 技术 有 机 融入 工业 监控 系统 ,系统 展现 界面 以 生产 厂房 的 仿真 场景 为 基 
出 ,对 各 个 工段 .重要 设备 的 形态 等 进行 复原 ,作业 流转 状态 可 以 在 厂房 视图 中 直接 显示 。 
在 单 体 设备 视图 中 ,机械 设备 的 运行 模式 直接 以 仿真 动画 的 形式 展现 ,通过 图 像 、 三 维 动画 
和 计算 机 程控 技术 与 实体 模型 相 融 合 ,实现 对 设备 的 可 视 化 表达 ,使 管理 者 对 其 所 管理 的 设 
备 有 形象 具体 的 概念 。 同 时 ,对 设备 运行 中 产生 的 所 有 参数 一 目 了 然 , 从 而 大 大 减少 管理 者 
的 劳动 强度 ,提高 管理 效率 和 管理 水 平 。 

大 数据 的 发 展 使 大 数据 可 视 化 在 未 来 必 将 得 到 大 规模 ,深入 的 应 用 。 





11.2 数据 可 视 化 技术 


数据 可 视 化 技术 是 指 运 用 计算 机 图 形 学 和 图 像 处 理 技 术 将 数据 转换 为 图 形 或 图 像 , 并 
在 屏幕 上 显示 出 来 ,再 利用 数据 分 析 和 开发 工具 发 现 其 中 未 知 信息 的 交互 处 理 的 理论 ,方法 
和 技术 。 数 据 可 视 化 技术 的 特点 是 交互 性 、 多 维 性 、 可 视 性 。 

数据 可 视 化 技术 中 除了 普通 的 柱状 图 、 直 方 图 、 箱 式 图 、 折 线 图 和 饼 图 等 这 些 2D/3D 技 
术 之 外 ,还 有 一 些 更 为 复杂 的 可 视 化 技术 。 目 前 多 维 数据 可 视 化 已 经 提出 了 许多 方法 ,这 些 
方法 根据 其 可 视 化 的 原理 不 同 划分 为 基于 几何 的 技术 ,面向 像素 的 技术 、 基 于 图 标的 技术 、 


基于 层次 的 技术 和 其 他 可 视 化 技术 。 
1. 基于 几何 的 技术 
基于 几何 的 数据 可 视 化 技术 的 基本 思想 是 以 几何 画 法 或 几何 投影 的 方式 来 表示 数据 库 


中 的 数据 ,以 线 或 折线 来 表示 数据 各 变量 之 间 的 联系 。 基 于 几何 的 可 视 化 主要 包括 散 点 图 、 
地 形 图 ,平行 坐标 等 方法 。 

平行 坐标 技术 是 这 种 技术 的 典型 代表 ,其 基本 思想 是 将 n 维 数据 属性 空间 通过 nn 条 等 
距离 的 平行 轴 映 射 到 二 维 平 面 上 ,每 一 条 轴线 代表 一 个 属性 维 ,轴线 上 的 取 值 范围 从 对 应 属 





性 的 最 小 值 到 最 大 值 均匀 分 布 。 这 样 ,每 一 个 数据 项 都 可 以 根据 其 属性 值 用 一 条 折线 段 在 
n 条 平行 轴 上 表示 出 来 ,折线 与 坐标 轴 的 交点 是 相应 对 象 在 该 维 上 的 值 。 折 线段 的 顶点 在 
坐标 轴 上 的 取 值 范围 即 为 相应 的 属性 取 值 ,关系 数据 库 的 个 维 数据 可 用 平行 坐标 上 的 
M 条 折线 表示 。 

平行 坐标 与 传统 的 直角 坐标 相 比 ,最 大 的 优点 是 表达 的 维 数 决定 于 屏幕 的 水 平 宽度 ,而 
不 必 使 用 矢量 或 其 他 可 视图 标 。 当 维 数 增加 时 ,传统 直角 坐标 难于 表达 信息 ,而 平行 坐标 十 
分 直观 。 只 是 由 于 维 数 增加 而 引起 垂直 轴 靠 近 , 辨 认 数据 的 结构 和 关系 时 稍 显 困难 。 大 数 
据 集 平行 坐标 表达 的 最 大 困难 在 于 , 当 数 据 量 很 大 时 ,由 于 大 量 的 交 番 线 使 得 折线 密度 增 
加 ,图 形 存在 重 全 ,层次 不 清 , 使 用 户 难 于 识别 ,减少 混乱 的 方法 是 以 层次 的 方式 阻止 数据 
集 , 引 入 交互 手段 ,进行 分 层 显示 。 

2. 面向 像素 的 技术 

面向 像素 的 技术 是 有 效 可 视 化 海量 数据 的 技术 。 面 向 像素 的 技术 由 德国 慕尼黑 大 学 的 
D. A. Keim 提出 , 它 的 基本 思想 是 将 每 一 个 数据 项 的 数据 值 对 应 一 个 带 颜 色 的 屏幕 像素 ,对 
于 不 同 的 数据 属性 以 不 同 的 窗口 分 别 表示 。 面 向 像素 的 技术 对 每 一 维 只 使 用 多 个 像素 , 它 
能 在 屏幕 中 尽 可 能 多 地 显示 出 相关 的 数据 项 。 高 分 辩 率 的 显示 器 可 显示 多 达 10 倍 的 数量 
级 的 数据 。 面 向 像素 的 技术 利用 递归 模型 .螺旋 模型 .圆周 划分 模型 等 方法 分 布 数据 ,其 目 
的 是 在 屏幕 窗口 上 展示 尽量 多 的 数据 。 

3. 基于 图 标的 技术 

基于 图 标的 技术 又 称 作 图 标 显 示 技 术 , 它 的 基本 思想 是 定制 一 些 三 维 几 何 对 象 ( 椎 体 、 
箭头 等 ), 这 些 三 维 的 对 象 就 成 为 图 标 。 然 后 将 每 一 个 多 维 数据 项 映射 为 一 个 图 标 ,并 按 一 
定 顺 序 排列 这 些 图 标 。 图 标的 个 数 与 数据 量 相关 ,如 大 小 .颜色 、 形 状 等 均 可 用 于 与 数据 项 
的 维 对 应 。 基 于 图 标的 技术 包括 的 具体 实现 方法 有 : 脸谱 图 、 形 状 编码 、 彩 色 图 标 、 枝 形 图 。 
这 种 技术 适用 于 某 些 维 值 在 二 维 平面 上 具有 良好 展开 属性 的 数据 集 。 

脸谱 图 又 称 切 诺 夫 脸 ,该 方法 是 Herman Chernoff 于 1973 年 提出 的 一 种 表现 多 维 数据 
的 可 视 化 方法 。 以 简单 的 脸谱 组 成 部 分 (轮廓 、 鼻 、 嘴 、 眼 等 ) 的 特征 来 表现 多 维 数据 。 
Chernoff 脸 适 合 于 在 大 量 相似 的 数据 中 发 现 歧 异 点 ,或 者 根据 表情 对 数据 进行 聚 类 。 脸 的 
轮廓 由 两 个 椭圆 各 取 上 半 部 分 构成 。 它 们 的 短 轴 在 同一 条 轴 上 ,与 Y 轴 平 行 ,长 轴 与 X 轴 
平行 ,椭圆 的 离心 率 可 以 由 数据 变量 确定 ,脸谱 中 的 鼻子 的 长 度 代表 一 个 变量 的 值 。 脸 谱 中 
的 嘴 由 一 段 圆 弧 表示 , 圆 弧 的 半径 由 变量 值 确定 , 当 变 量 为 正 时 , 圆 弧 向 上 ; 为 负 时 , 圆 弧 向 
下 。 圆 弧 的 长 度 可 以 由 变量 的 值 确定 ,脸谱 的 眼睛 是 由 两 个 椭圆 构成 的 , 沿 着 长 轴 延 伸 一 定 
的 长 度 , 由 于 眼珠 已 经 很 小 ,有 时 也 不 把 它 作 为 一 个 变量 的 表示 部 分 。 脸 谱 的 眉毛 从 眼 的 椭 
圆 中 心 向 上 到 一 定 的 高 度 , 没 毛 的 方向 和 长 度 也 可 以 由 变量 值 决定 。 由 此 可 见 ,一 个 脸谱 可 
以 表示 多 达 十 几 个 变量 。 如 果 不 追 求 脸谱 的 对 称 ,一 个 脸谱 可 以 表示 多 达 几 十 个 变量 。 为 
了 脸谱 便于 识别 ,常常 需要 对 变量 的 取 值 范围 加 以 界定 ,如 嘴 的 长 度 不 能 超过 脸 的 轮廓 。 此 
时 可 以 对 数据 作 相 应 的 线性 变换 。 

枝 形 图 方法 首先 选取 多 维 属性 中 的 两 种 属性 作为 基本 的 X-Y 平面 轴 ,在 此 平面 上 利用 
小 树枝 的 长 度 或 角度 的 不 同 表示 出 其 他 属性 值 的 变化 。 枝 形 图 的 基本 思想 是 用 同一 棵 树枝 
表示 多 个 变量 ,每 一 变量 占 一 节 树 枝 。 枝 形 图 首先 选取 多 维 变量 中 的 两 个 变量 作为 基本 的 
XY 轴 ,在 此 平面 上 利用 小 树枝 表示 出 其 他 变量 值 的 变化 。 树 枝 的 多 少 可 以 根据 维 数 大 小 








确定 。 虽 然 所 有 的 数据 都 要 用 相同 形状 的 树枝 来 表示 ,但 是 可 以 根据 需要 选择 不 同 数量 的 
树枝 或 不 同形 状 的 树枝 。 往 往 选 择 不 同 的 树枝 形状 表示 的 数据 会 得 到 不 同 的 结论 。 另 外 ， 
还 可 以 用 树枝 的 颜色 .粗细 等 特征 来 表示 变量 。 

4. 基于 层次 的 技术 

基于 层次 的 可 视 化 技术 的 基本 思想 是 将 户 维 数据 空间 划分 为 若干 子 空 间 , 对 这 些 子 空 
间 仍 以 层次 结构 的 方式 组 织 ,并 以 图 形 表示 出 来 。 基 于 层次 的 可 视 化 方法 多 利用 树 形 结构 
可 以 直接 应 用 于 具有 层次 结构 的 数据 ,也 可 以 对 数据 变量 进行 层次 划分 ,在 不 同 层次 上 表示 
不 同 变量 值 。 基 于 层次 的 可 视 化 技术 包括 维 堆 、 熟 土 、 维 嵌 套 等 。 

维 堆 方 法 是 利用 层次 的 形式 表示 多 维 数据 的 各 维 。 它 将 各 变量 值 分 成 一 段 一 段 等 长 的 
离散 值 ,这 样 映射 到 二 维 面 上 不 是 一 个 点 ,而 是 一 个 区 域 。 利 用 这 个 区 域 又 可 以 表示 另外 两 
个 变量 ,直到 所 有 的 变量 都 被 展示 出 来 。 

另外 一 种 用 层次 的 形式 表示 各 维 的 方法 是 维 嵌 套 方法 , 它 是 维 推 方法 的 一 个 扩展 。 维 
堆 方 法 更 适用 于 离散 的 数据 。 与 维 推 方法 不 同 , 维 典 套 的 基本 思想 是 在 一 个 坐标 系 中 建立 
另外 一 个 坐标 系 , 所 以 它 能 以 三 维 的 形式 表示 连续 的 数据 。 通 过 动态 交互 技术 ,用 户 可 以 自 
己 选择 各 层 的 坐标 变量 或 内 层 坐 标 系 的 方向 。 

树 形 图 是 可 视 化 层次 结构 数据 的 一 个 主要 方法 ,适合 于 观察 大 量 的 层次 数据 集 。 树 图 
的 基本 思想 是 根据 数据 的 层次 结构 将 屏幕 空间 划分 成 一 个 个 矩形 子 空间 , 子 空间 大 小 由 节 
点 大 小 决定 。 树 图 层次 则 按照 由 根 节点 到 叶 节 点 的 顺序 ,水 平和 垂直 依次 转换 ,开始 将 空间 
水 平 划分 ,下 一 层 得 到 的 子 空间 垂直 划分 ,在 下 一 层 又 水 平 划分 ,以 此 类 推 。 对 于 每 一 个 划 
分 的 矩形 可 以 进行 相应 的 颜色 或 必要 的 说 明 。 

5. 其 他 可 视 化 技术 

此 外 ,其 他 可 视 化 技术 有 : 面向 层次 的 可 视 化 技术 适用 于 层次 关系 的 数据 ,而 基于 图 形 
的 技术 可 以 用 于 表现 结构 关系 相对 较 强 的 数据 。 还 有 很 多 多 维 数据 可 视 化 技术 和 方法 ,如 
3D 技术 ,动态 技术 ,混合 技术 等 ,它们 大 多 以 上 面 的 几 种 技术 为 基础 ,然后 在 某 些 方面 (如 颜 
色 ) 作 改进 和 扩展 ,使 功能 更 加 完善 和 突出 。 





11.3 可视化 工具 


11.3.1 常用 可 视 化 工具 简介 


选择 适合 的 数据 可 视 化 工具 ,能 更 好 地 展示 数据 之 间 的 逻辑 关系 , 画 出 所 需要 的 图 表 。 
以 下 是 Netmagzine 列举 的 二 十 大 数据 可 视 化 工具 ,这 些 工具 大 多 免费 , 见 表 11-1 一 表 11-6。 


表 11-1 第 一 部 分 : 入 门 级 工具 








工具 名 称 简 介 
Excel 的 图 形 化 功能 并 不 强大 ,但 作为 一 个 人 门 级 工具 ,Excel 是 快速 分 析 数据 的 理想 
1. Excel 工具 ,能 创建 供 内 部 使 用 的 数据 图 。Excel 在 颜色 线条 和 样式 上 可 选择 的 范围 有 限 ， 


这 也 意味 着 用 Excel 很 难 制作 出 符合 专业 出 版 物 和 网 站 需要 的 数据 图 





CSV( 逗 号 分 隔 值 ) 和 JSON(JavaScript 对 象 注释 ) 虽 然 并 不 是 真正 的 可 视 化 工具 ,但 
能 画 出 常见 的 数据 格式 





2. CSV/JSON 





表 11-2 第 二 部 分 : 在 线 数 据 可 视 化 工具 





工具 名 称 


简 介 





oo 


. Google Chart API 


Google Chart API 提供 异常 丰富 的 动态 图 表 工 具 ( 见 图 11-2) ,工具 集中 取消 了 
静态 图 片 功能 ,能 够 在 所 有 支持 SVG/Canvas 和 VML 的 浏览 器 中 使 用 。Google 
Chart 存在 的 问题 是 : 图 表 在 客户 端 生成 ,这 意味 着 那些 不 支持 JavaScript 的 设 
备 将 无 法 使 用 ,此 外 也 无 法 离线 使 用 或 者 将 结果 另存 其 他 格式 ,之 前 的 静态 图 片 
就 不 存在 这 个 问题 





Flot 是 一 个 优秀 的 线 框图 表 库 ,支持 所 有 支持 canvas 的 浏览 器 ,如 目前 主流 的 浏 











ee 览 器 火狐 IE、Chrome 等 

5. Raphaél Raphatl 是 创建 图 表 和 图 形 的 JavaScript 库 ,与 其 他 库 最 大 的 不 同 是 输出 格式 仅 
限 SVG 和 VML。SVG 是 矢量 格式 ,在 任何 分 辩 率 下 的 显示 效果 都 很 好 
D3(Data Driven Documents) 是 支持 SVG 演 染 的 另 一 种 JavaScript 库 。D3 提供 

6. D3 大 量 线性 图 和 条 形 图 之 外 的 复杂 图 表 样式 及 非常 丰富 的 互动 图 表 , 例 如 Voronoi 
图 、 树 形 图 、 圆 形 集群 和 单词 云 等 ,如 图 11-3 所 示 

7. Visual. ly Visual. ly 是 制作 信息 图 最 流行 的 一 个 工具 。 虽 然 Visual. ly 的 主要 定位 是 “信息 





图 设计 师 的 在 线 集 市 ”, 但 是 也 提供 了 大 量 信息 图 模板 





‘Table 
和 Name Salary FullTime 
G 1 Me $10,.000 Y 
2 | Jm Sao00 x 
3 Alce $12.500 YY we 
4 Bob $7,000 ‘ 





图 11-2 Google Chart API 图表 


表 11-3 第 三 部 分 : 互动 图 形 用 户 界面 (GUI) 控 制 





随 着 在 线 数据 可 视 化 的 发 展 ,按钮 .下 拉 列 表 和 滑 块 都 在 进化 成 更 加 复杂 的 界面 元 素 , 例 如 能 够 调整 数 
据 范围 的 互动 图 形 元 素 , 推 拉 这 些 图 形 元 素 时 输入 参数 和 输出 结果 数据 会 同步 改变 ,这 样 图 形 控制 和 内 


容 就 合 为 一 体 。 





工具 名 称 


简 人 





JavaScript 库 Crossfilter 是 一 种 创建 出 既是 图 表 , 又 是 互动 图 形 用 户 界面 的 小 程序 的 工 


8. Crossfilter | 具 , 如 图 11-4 所 示 。Crossfilter 特点 : 当 调 整 一 个 图 表 中 的 输入 范围 时 ,其 他 关联 图 表 


的 数据 也 会 随 之 改变 





9. Tangle 





JavaScript 库 Tangle 进一步 模糊 了 内 容 与 控制 之 间 的 界限 。 可 生成 一 个 负载 的 互动 方 
程 ,用 户 可 以 调整 输入 值 获得 相应 数据 








图 11-3 D3 图表 


Time of Day Amival Delay (min) Distance (mi) 


EslMn 090000m0m00 4 809 M9 20% 








图 11-4 Crossfilter 图 表 


表 11-4 第 四 部 分 : 地 图 工具 





地 图 生成 是 Web 上 最 困难 的 任务 之 一 。Google 发 布 的 Maps API 则 让 所 有 的 开发 者 都 能 在 自己 的 网 
站 中 植 人 地 图 功能 。 在 线 地 图 的 工具 可 以 使 用 户 根 据 需要 在 数据 可 视 化 项 目 中 植 人 定制 化 的 地 图 
方案 。 

工具 名 称 简 介 
Modest Maps 是 一 个 很 小 的 地 图 库 ,只 有 10KB 大 小 ,是 目前 最 小 的 可 用 地 图 库 。 除 
10. Modest Maps| 提供 一 些 基本 的 地 图 功能 外 ,可 在 一 些 扩展 库 的 配合 下 (如 Wax) 变 成 一 个 强大 的 地 
图 工具 ,如 图 11-5 所 示 
CloudMade 团队 的 Leaflet 是 一 个 小 型 化 的 地 图 框架 ,通过 小 型 化 和 轻 量化 来 满足 移 
11. Leaflet 动 网 页 的 需要 ,如 图 11-6 所 示 。Leaflet 和 Modest Maps 都 是 开源 项 目 , 有 强大 的 社 
区 支持 ,是 在 网 站 中 整合 地 图 应 用 的 理想 选择 
PolyMaps 是 面向 数据 可 视 化 用 户 的 一 个 地 图 库 , 在 地 图 风格 化 方面 有 独到 之 处 ,类 
似 于 CSS 样式 表 的 选择 器 














12. PolyMaps 








续 表 





工具 名 称 简 办 

OpenLayers 可 能 是 所 有 地 图 库 中 可 靠 性 最 高 的 一 个 。 虽然 文档 注释 并 不 完善 , 且 学 
13. OpenLayers | 习 曲 线 有 难度 ,但 对 一 些 特定 的 任务 来 说 ,OpenLayers 性 能 优越 。 例 如 ,能 够 提供 一 
些 其 他 地 图 库 都 没有 的 特殊 工具 

Kartograph 在 地 图 绘制 的 标记 线 上 带 来 了 更 多 的 选择 。 如 果 用 户 不 需要 调用 全 球 数 
据 , 而 仅仅 是 生成 某 一 区 域 的 地 图 ,那么 Kartogaph 性 能 足够 优越 

CartoDB 是 一 个 很 轻易 就 可 以 把 表格 数据 和 地 图 关联 起 来 的 网 站 。 例 如 ,用 户 输入 
15. CartoDB CSV 通信 地 址 文件 ,CartoDB 能 将 地 址 字符 串 自动 转化 成 经 度 / 维 度数 据 , 并 在 地 图 上 
标记 出 来 。 目 前 ,CartoDB 支持 免费 生成 五 张 地 图 数据 表 , 使 用 更 多 则 需要 支付 月 费 








14. Kartograph 
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图 11-5 Modest Maps 图 表 图 11-6 ”Leaflet 图 表 


表 11-5 第 五 部 分 : 进 阶 工具 
如 果 用 数据 可 视 化 做 一 些 有 难度 的 工作 ,在 线 可 视 化 工具 或 者 Web 小 程序 不 能 满足 要 求 ,此 时 需要 专 
业 的 桌面 应 用 和 编程 环境 。 
工具 名 称 简 介 

Processing 是 数据 可 视 化 的 招牌 工具 ,只 需要 编写 一 些 简单 的 代码 ,然后 编译 成 Java 即 
可 。 有 一 个 Processing.js 项目, 可 以 让 网 站 在 没有 Java Applets 的 情况 下 更 容易 地 使 
16. Processing | 用 Processing。 由 于 端口 支持 Objective-C, 用 户 也 可 以 在 iOS 上 使 用 Processing。 虽 然 
Processing 是 一 个 桌面 应 用 ,但 也 可 以 在 几乎 所 有 平台 上 运行 。 经 过 数 年 发 展 ， 
Processing 社区 目前 已 经 拥有 大 量 实例 和 代码 。Processing 图 表 如 图 11-7 所 示 
NodeBox 是 OS X 上 创建 二 维 图 形 和 可 视 化 的 应 用 程序 。NodeBox 虽 与 Processing 类 
似 ,但 没有 Processing 的 互动 功能 











17. NodeBox 











图 11-7 Processing 图 表 


表 11-6 第 六 部 分 : 专家 级 工具 














工具 名 称 简 介 

1 作为 用 于 分 析 大 数据 集 的 统计 组 件 包 ,R 是 一 个 开源 的 、 统 计 功 能 很 强 的 工具 ,提供 了 
非常 丰富 的 图 表 功 能 ,并 拥有 强大 的 社区 和 组 件 库 , 如 图 11-8 所 示 

19. Weka 如 果 需 要 从 数据 可 视 化 扩展 到 数据 挖掘 领域 , Weka 是 一 个 能 根据 属性 分 类 和 集群 大 量 
数据 的 优秀 工具 。Weka 不 但 是 数据 分 析 的 强大 工具 ,还 能 生成 一 些 简单 的 图 表 

20. Gephi Gephi 是 进行 社交 图 谱 数 据 可 视 化 分 析 的 工具 ,不 但 能 处 理 大 规模 数据 集 和 生成 漂亮 





的 可 视 化 图 形 , 还 能 对 数据 进行 清洗 和 分 类 。Gephi 图 表 如 图 11-9 所 示 

















Factor 3 [199] 














11-9 Gephi 图 表 


11.3.2 大 数据 可 视 化 面临 的 挑战 


如 今 ,大 数据 可 视 化 的 方法 面临 如 下 挑战 。 

1. 体 量 (Volume) 

如 何 使 用 数据 量 很 大 的 数据 集 开 发 ,并 从 大 数据 中 获得 意义 。 在 处 理 大 数据 量 的 调用 、 
存储 等 方面 需要 解决 很 多 问题 。 
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2. 多 源 (Variety) 

开发 过 程 中 需要 尽 可 能 多 的 数据 源 。 大 数据 可 视 化 的 多 样 性 和 异 构 性 (结构 化 、 半 结构 
化 和 非 结构 化 ) 是 一 个 大 问题 。 可 视 化 系统 必须 与 非 结 构 化 的 数据 形式 (如 图 表 、 表 格 、 文 
本 、 树 形 图 和 其 他 的 元 数据 等 ) 相 抗衡 ,而 大 数据 通常 是 以 非 结 构 化 形式 出 现 的 。 由 于 宽带 
限制 和 能 源 需 求 ,可 视 化 应 该 更 贴近 数据 ,并 有 效 地 提取 有 意义 的 信息 。 

3. 高 速 (Velocity) 

云 计 算 和 先进 的 图 形 用 户 界面 更 有 助 于 发 展 大 数据 的 扩展 性 ,高 速 实 时 是 大 数据 分 析 
的 要 素 。 不 用 分 批 处 理 数据 ,而 是 实时 高 速 地 处 理 全 部 数据 是 大 数据 可 视 化 的 需求 。 但 在 
大 数据 中 ,设计 一 个 新 的 可 视 化 工具 并 具有 高 效 的 索引 并 非 易 事 。 

4. 高 性 能 质量 要 求 (Value) 

不 仅 为 用 户 创 建 有 吸引 力 的 信息 图 和 热点 图 ,还 能 通过 大 数据 获取 意见 ,创造 商业 价 
值 。 静 态 可 视 化 几乎 没有 这 个 要 求 ,因为 可 视 化 速度 较 低 ,性 能 的 要 求 也 不 高 。 

5. 并 行 化 

可 视 化 软件 应 以 原 位 的 方式 运行 。 由 于 大 数据 的 容量 问题 ,大 规模 并 行 化 成 为 可 视 化 
过 程 的 一 个 挑战 ,并 行 可 视 化 算法 的 难点 则 是 如 何 将 一 个 问题 分 解 为 多 个 可 同时 运行 的 独 
立 的 任务 。 

6. 复杂 性 和 高 维度 

高 效 的 数据 可 视 化 是 大 数据 时 代 发 展 进程 中 关键 的 一 部 分 。 在 大 数据 的 应 用 程序 中 ， 
大 规模 数据 和 高 维度 数据 会 使 得 进行 数据 可 视 化 变 得 困难 。 高 维 可 视 化 越 有 效 ,识别 出 法 
在 的 模式 .相关 性 或 离 群 值 的 概率 越 高 。 当 前 大 多 数 大 数据 可 视 化 工具 在 扩展 性 、 功 能 和 响 
应 时 间 上 仍 需 进行 攻关 。 

7. 视觉 噪声 与 信息 丢失 

在 大 数据 集中 ,大 多 数 对 象 之 间 具 有 很 强 的 相关 性 ,用 户 无 法 把 它们 分 离 作 为 独立 的 对 
象 来 显示 ,也 存在 许多 视觉 噪声 。 虽 然 减少 可 视 数 据 集 的 方法 是 可 行 的 ,但 是 也 会 导致 信息 
的 丢失 。 

8. 大 型 图 像 感知 与 高 速 图 像 变换 

数据 可 视 化 不 仅 受 限于 设备 的 长 宽 比 和 分 辩 率 ,也 受 限 于 现实 世界 的 感受 。 用 户 虽 然 
能 观察 数据 , 却 不 能 对 数据 强度 变化 做 出 反应 。 可 视 化 每 个 数据 点 都 可 能 导致 过 度 绘制 而 
降低 用 户 的 辨识 能 力 ,通过 抽样 或 过 滤 数 据 可 以 删 去 离 群 值 。 查 询 大 规模 数据 库 的 数据 可 
能 导致 高 延迟 ,降低 交互 速率 。 因 此 ,可 感知 的 交互 的 扩展 性 也 是 大 数据 可 视 化 面临 的 
挑战 。 


小 结 
本 章 主要 介绍 了 大 数据 挖掘 可 视 化 的 相关 知识 ,包括 常规 数据 可 视 化 方法 ,大 数据 可 视 


化 趋势 与 应 用 数据 可 视 化 技术 以 及 常用 可 视 化 工具 等 ,对 大 数据 挖掘 可 视 化 存在 的 问题 、 
发 展 趋势 以 及 所 面临 的 挑战 进行 了 简 述 。 








(1) 怎样 理解 大 数据 可 视 化 ? 

(2) 大 数据 可 视 化 的 应 用 有 哪些 ? 

(3) 列举 数据 可 视 化 技术 ,并 进行 比较 。 

(4) 常见 的 可 视 化 工具 有 哪些 ? 

(5) 试用 Processing Google Chart API、D3 画 出 可 视 化 的 图 (如 热力 图 ) 。 
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【内 容 摘要 】 本 章 介绍 当前 大 数据 挖掘 在 各 行 各 业 的 应 用 案例 ,包括 社交 网 络 分 析 、 推 
荐 系统 ,零售 行业 大 数据 解决 方案 ,大 数据 金融 .医疗 大 数据 应 用 与 互联 网 大 数据 应 用 等 。 

【学 习 目标 〗 通过 本 章 的 学 习 , 了 解 大 数据 在 各 行 各 业 的 适用 场景 。 

随 着 大 数据 的 发 展 ,大 数据 挖掘 已 广泛 应 用 于 银行 金融 、 制 造 、 保 险 、 公 共 设 施 、 政 府 . 教 
育 、 远 程 通信 、 社 交 网 络 、 医 疗 等 各 个 行业 领域 。 


12.1 社交 网 络 分 析 


12.1.1 社交 网 络 分 析 应 用 概述 


社交 网 络 , 即 社交 网 络 服务 , 源 自 英文 SNS(Social Network Service) 的 翻译 ,中 文 直译 
为 社会 性 网 络 服 务 或 社会 化 网 络 服务 。 社 交 网 络 是 人 与 人 之 间 的 网 络 ,通过 网 络 这 一 载体 
把 人 们 连接 起 来 ,从 而 形成 具有 某 一 特点 的 团体 。 社 交 网 络 的 一 个 重要 特点 就 是 网 络 效 应 ， 
使 用 这 项 产品 或 者 服务 的 人 越 多 ,这 项 产品 或 服务 就 越 有 价值 和 吸引 力 。 简 单 地 说 ,社交 网 
络 是 在 互联 网 上 与 其 他 人 相 联 系 的 一 个 平台 。 社 交 网 络 站 点 通常 围绕 用 户 的 基本 信息 而 运 
作 ,用 户 基本 信息 是 指 有 关 用 户 喜 欢 的 事 .不 喜欢 的 事 兴趣、 爱好 、 学 校 .职业 或 任何 其 他 共 
同 点 的 集合 。 

社交 网 络 分 析 (Social Network Analysis) 是 指 基 于 信息 学 、 数 学 、 社 会 学 ,管理 学 ,心理 
学 等 多 学 科 的 融合 理论 和 方法 ,为 理解 人 类 各 种 社交 关系 的 形成 ,行为 特点 分 析 以 及 信息 传 
播 的 规律 提供 的 一 种 可 计算 的 分 析 方 法 。 

社交 网 络 的 目标 是 ,通过 一 个 或 多 个 共同 点 将 一 些 人 相互 联系 起 来 并 建立 一 个 群 组 。 
一 些 社交 网 络 站 点 按照 特殊 的 兴趣 来 分 组 。 通 过 这 些 站 点 可 以 围绕 特定 主题 分 享 经 验 和 知 
识 , 并 建立 友情 。 

如 今 ,社交 网 络 全 球 分 布 , 这 种 社交 网 络 创造 了 一 种 独立 于 现实 社交 网 络 的 虚拟 社交 网 
络 , 社 交 网 络 业务 已 成 为 覆盖 用 户 最 广 、 传 播 影响 最 大 、 商 业 价值 最 高 的 Web 2.0 业务 。 在 
以 社交 网 络 为 主体 的 “ 链 式 ” 信 息 爆 炸 的 今天 ,社交 网 络 必定 为 社会 化 与 论 监督 和 与 情 发 酵 
提供 足够 的 成 长 空间 ,社交 网 络 成 为 继 搜索 引擎 业务 之 后 改变 互联 网 改变 网 民生 活 的 互联 
网 业务 ,并且 具有 空前 的 规模 性 和 群体 性 ,吸引 着 无 数 研究 者 从 无 序 的 数据 中 发 气 有 价值 的 
信息 ,社交 网 络 成 为 数据 科学 家 眼中 的 金 矿 。 

目前 一 些 利 用 大 数据 进行 社交 网 络 分 析 的 研究 课题 主要 有 社交 网 络 中 社区 圈子 的 识 








别 、 社 交 网 络 中 人 物 影 响 力 的 计算 、 信 息 在 社交 网 络 上 的 传播 模型 .虚假 信息 和 机 器 人 账号 
的 识别 、 短 文本 语义 挖掘、 用 户 情感 分 析 、 基 于 社交 网 络 信息 对 股市 .大选 以 及 传染 病 的 预测 
等 ,从 海量 的 非 结构 化 数据 中 揭示 社交 网 络 要 素 的 地 理 空间 分 布 特征 、 地 理 现 象 以 及 形成 机 
理 也 是 当前 社交 网 络 分 析 领 域 重 要 的 研究 课题 。 


12.1.2 社交 网 络 应 用 案例 


社交 网 络 数据 用 途 广泛 ,这些 数据 如 今 是 价值 尚未 完全 发 掘 的 资源 。 在 社会 研究 过 程 
中 ,可 以 通过 这 些 数据 更 加 深入 地 了 解 社 会 各 领域 的 运行 状况 。 各 种 不 同 的 社交 网 络 产生 
的 大 量 的 用 户 数据 具有 空前 的 规模 性 和 群体 性 。 社 会 学 .传播 学 .行为 学 ,心理 学 .人 类 学 、 
与 论 学 等 众多 领域 的 专家 学 者 ,以 及 研发 .生产 营销、 广告 等 众多 领域 的 从 业者 ,都 可 以 通 
过 对 海量 无 序数 据 的 发 掘 ,从 而 分 析 发 现 社会 的 运行 规律 。 

社会 网 络 数据 预测 过 程 中 ,可 以 通过 这 些 数 据 更 加 精确 地 把 握 事态 的 走向 。 美 国 科 学 
家 通过 监控 Twitter 中 公众 的 情绪 数据 发 现 ,公众 的 情绪 数据 与 很 多 社会 现象 及 事件 具有 
很 强 的 相关 性 。 典 型 的 例子 是 ,公众 在 社交 网 络 的 情绪 突然 改变 ,都 会 反映 出 对 股市 的 不 确 
定性 ,因此 可 以 利用 这 种 信号 来 预测 总 统 大 选 或 者 股市 的 走向 ,奥巴马 的 成 功 连任 就 在 很 大 
程度 上 得 益 于 社交 数据 分 析 。 

案例 12-1 B2B 企业 的 社交 网 络 一 一 Archer Technology 公司 的 在 线 社 区 和 集 市 

随 着 社交 媒体 在 B2B 企业 营销 中 扮演 着 越 来 越 重 要 的 角色 ,企业 在 社交 媒体 上 的 投入 
会 加 大 ,投入 的 形式 和 结构 也 会 发 生变 化 ,因为 企业 希望 他 们 的 客户 能 够 通过 社交 媒体 增进 
与 他 们 的 互动 ,给 客户 带 来 归属 感 , 加 深 对 企业 的 了 解 ,同辈 人 群 的 影响 和 信息 数据 的 获取 
在 B2B 企业 的 营销 中 越 来 越 起 到 决定 性 的 作用 。 随 着 社交 媒体 的 崛起 ,86 党 的 B2B 企业 正 
在 使 用 社会 化 媒体 。 很 多 B2B 企业 都 开始 挖掘 社交 媒体 的 价值 ,更 好 地 与 客户 实现 互动 。 

Archer Technology 具有 自己 的 一 套 完善 的 在 线 社区 ,专门 致力 于 提供 管理 、 风 险 以 及 
促使 一 致 性 的 软件 。 在 B2B 领域 中 它 协助 建立 了 一 个 101 个 案例 研究 库 , 其 中 最 成 功 的 例 
子 就 是 “交互 想法 ”, 已 经 有 超过 7000 名 用 户 通 过 这 个 活动 进行 交流 和 协作 。 作 为 延伸 ， 
Archer 还 有 一 个 贸易 集 市 ,用 户 可 以 在 集 市 中 下 载 那 些 已 经 由 其 他 人 根据 大 家 的 想法 开发 
完成 的 软件 。 

案例 12-2 ”可口可乐 的 “昵称 瓶 ” 

为 了 在 夏天 把 快乐 带 给 可 口 可 乐 所 有 的 消费 者 和 喜欢 可 口 可 乐 品 牌 的 大 众 , 可 口 可 乐 
也 希望 在 产品 中 体现 * 接 地 气 ” 的 一 面 , 这 便 是 可 口 可 乐 “ 昵 称 瓶 活 动 的 初 袁 。 在 中 国 , 可 口 
可 乐 对 这 个 概念 进行 了 本 地 化 处 理 , 把 大 家 在 社会 化 媒体 上 使 用 最 多 、 最 耳熟能详 的 热门 关 
键 词 印 上 了 瓶子 ,例如 光 吐 星人 交 闺 蜜 交 高 富 帅 交 小 葛 莉 ”等 不 同 字样 。 可 口 可 乐 新 包装 上 
的 这 些 “ 昵 称 ” 都 是 中 国 年 轻 人 十 分 熟悉 的 流行 词汇 , 拉 近 了 与 消费 群体 的 情感 距离 。 

在 昵称 的 选取 过 程 中 ,把 “定制 专属 名 字 ” 的 举动 与 “一 起 分 享 ” 的 广告 语 联系 起 来 ,利用 
新 技术 抓 取 网 络 社交 平台 上 过 亿 热 词 ,把 网 民 使 用 频率 最 高 的 热 词 抽 取出 来 ,然后 通过 3 重 
标准 ( 即 声 量 、 互 动 性 以 及 发 帖 率 ) 的 删 选 ,最 终 确认 300 个 积极 向 上 且 符 合 可 口 可 乐 品牌 形 
象 的 特色 关键 词 。 

在 可 口 可 乐 的 这 次 营销 活动 中 ,收集 海量 社交 媒体 数据 并 提炼 出 昵称 ,可 口 可 乐 建 立 了 
一 套 完整 的 系统 Social Command Center, 通 过 实时 的 数据 挖掘 第 一 时 间 告 知 广告 公司 , 哪 
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些 名 单 需 要 互动 了 ,并 将 互动 记录 保留 下 来 供 后 续 沟通 。 收 集 数据 一 清理 数据 一 数据 入 
库 一 找到 有 质量 的 消费 者 或 名 人 一 提供 给 广告 公司 互动 名 单 ,这些 都 是 实时 进行 的 ,并 且 都 
是 在 可 口 可 乐 公司 本 次 活动 数 以 万 计 的 基础 上 进行 的 。 

通过 一 站 式 全 流程 的 数据 管理 服务 ,除了 社交 大 数据 的 挖掘 和 分 析 , 还 能 提供 传统 广告 
的 监控 日 志 数 据 , 采 集 广告 主 官方 站 点 ,品牌 微 博 、 电 商 渠 道 、 在 线 调研 ,使 用 评论 等 数据 的 
挖掘 和 分 析 服务 ,并 将 这 些 数 据 有 机 地 整合 起 来 ,为 企业 的 品牌 营销 和 市 场 运营 建立 模型 、 
提供 建议 .协助 决策 。 


122 推荐 系统 


12.2.1 推荐 系统 概述 


1. 推荐 方法 

推荐 系统 是 利用 电子 商务 网 站 向 客户 提供 商品 信息 和 建议 ,帮助 用 户 决定 应 该 购买 什 

产品 ,模拟 销售 人 员 帮 助 客户 完成 购买 过 程 。 

推荐 系统 有 3 个 重要 的 模块 : 用 户 建 模 模 块 .推荐 对 象 建 模 模 块 、 推 荐 算法 模块 。 推 荐 
系统 把 用 户 模型 中 兴趣 需求 信息 和 推荐 对 象 模型 中 的 特征 信息 作 匹 配 ,同时 使 用 相应 的 推 
荐 算法 进行 计算 筛选 ,找到 用 户 可 能 感 兴趣 的 推荐 对 象 , 然 后 推荐 给 用 户 。 推 荐 系统 包括 热 
门 推荐 .人 工 推荐 .相关 推荐 .个 性 化 推荐 四 种 推荐 方式 。 

热门 推荐 : 类 似 于 热门 排行 榜 。 这 种 推荐 方式 不 仅仅 在 IT 系统 ,在 日 常生 活 中 也 是 处 
处 存在 的 。 这 应 该 是 效果 最 好 的 一 种 推荐 方式 ,毕竟 热门 推荐 的 物品 都 是 位 于 曝 光量 比较 
高 的 位 置 。 

人 工 推荐 : 人 工 干预 的 推荐 内 容 , 是 相对 于 依赖 热门 和 算法 来 说 的 推荐 。 一 些 热点 时 
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相关 推荐 : 相关 推荐 有 点 类 似 于 关联 规则 的 个 性 化 推荐 , 即 在 用 户 阅 读 一 个 内 容 时 , 提 
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个 性 化 推荐 : 基于 用 户 的 历史 行为 作出 的 内 容 推荐 。 

其 中 ,前 三 者 是 和 机 器 学 习 没 有 任何 关系 的 ,但 却 是 推荐 效果 最 好 的 三 种 方式 。 
般 来 说 ,这 部 分 内 容 应 该 占 总 的 推荐 内 容 的 80% 左 右 ,另外 20% 则 是 对 长 尾 内 容 的 个 性 
化 推荐 。 

2. 个 性 化 推荐 系统 

个 性 化 推荐 是 机 器 学 习 应 用 的 一 个 典型 场景 。 其 本 质 上 是 和 搜索 引擎 一 样 的 ,同样 是 
为 了 解决 信息 过 载 的 问题 。 搜 索引 擎 在 某 种 意义 上 也 是 一 个 个 性 化 推荐 系统 ,但 是 其 输入 
特征 可 以 从 搜索 关键 字 直 接 得 到 。 而 一 般 的 个 性 化 推荐 系统 ,其 输入 特征 则 是 需要 机 器 学 
习 才 能 得 到 。 

1) 个 性 化 推荐 系统 的 组 成 

个 性 化 推荐 系统 一 般 由 日 志 系统 .推荐 算法 、 内 容 展示 UI 三 部 分 组 成 。 

(1) 日 志 系 统 : 这 是 推荐 系统 的 输入 源 , 是 一 个 推荐 系统 所 有 信息 的 源头 。 


(2) 推荐 算法 : 这 是 推荐 系统 的 核心 ,根据 输入 数据 得 出 最 终 的 推荐 结果 。 

(3) 内 容 展示 UI: 用 于 展示 推荐 结果 ,需要 更 好 地 满足 推荐 系统 的 目标 ,并 能 更 好 地 收 
集 用 户 的 行为 信息 。 

2) 个 性 化 推荐 算法 

个 性 化 推荐 算法 中 ,目前 比较 流行 的 有 以 下 几 种 。 

(1) 基于 内 容 的 推荐 : 根据 内 容 本 身 的 属性 (特征 向 量 ) 所 作 的 推荐 。 

(2) 基于 关联 规则 的 推荐 :“ 啤 酒 与 尿布 ?的 方式 ,是 一 种 动态 的 推荐 ,能 够 实时 对 用 户 
的 行为 作出 推荐 ,是 基于 物品 之 间 的 特征 关联 性 所 做 的 推荐 ,在 某 种 情况 下 会 退化 为 物品 协 
同 过 滤 推 荐 。 

(3) 协同 过 滤 推 荐 : 与 基于 关联 规则 的 推荐 相 比 ,是 一 种 静态 方式 的 推荐 ,是 根据 用 户 
已 有 的 历史 行为 作 分 析 的 基础 上 做 的 推荐 。 协 同 过 滤 可 分 为 物品 协同 过 滤 、 用 户 协同 过 滤 、 
基于 模型 的 协同 过 滤 。 其 中 ,基于 模型 的 协同 过 滤 又 可 以 分 为 基于 距离 的 协同 过 滤 、 基 于 甜 
阵 分 解 的 协同 过 滤 (ALS-WR) .基于 图 模型 协同 (Graph, 也 叫 社会 网 络 图 模型 ) 。 

(4) 基于 知识 的 推荐 : 基于 知识 的 推荐 (Knowledge-based Recommendation) 在 某 种 程 
度 上 可 以 看 成 是 一 种 推理 (Inference) 技 术 , 它 不 是 建立 在 用 户 需要 和 偏好 基础 上 推荐 的 。 
基于 知识 的 推荐 因 它 们 所 用 的 功能 知识 不 同 而 有 明显 区 别 。 效 用 知识 (Functional 
Knowledge) 是 一 种 关于 一 个 项 目 如 何 满足 某 一 特定 用 户 的 知识 ,因此 能 解释 需要 和 推荐 的 
关系 ,所 以 用 户 资料 可 以 是 任何 能 支持 推理 的 知识 结构 , 它 可 以 是 用 户 已 经 规范 化 的 查询 ， 
也 可 以 是 一 个 更 详细 的 用 户 需 要 的 表示 。 

(5) 基于 人 口 统计 学 的 推荐 (Demographic-based Recommendation) : 是 一 种 最 易于 实 
现 的 推荐 方法 。 它 只 是 简单 地 根据 系统 用 户 的 基本 信息 发 现 用 户 的 相关 程度 ,然后 将 相似 
用 户 喜爱 的 其 他 物品 推荐 给 当前 用 户 。 

推荐 系统 现 已 广泛 应 用 于 很 多 领域 ,其 中 最 典型 并 具有 良好 的 发 展 和 应 用 前 景 的 领域 
是 电子 商务 领域 。 同 时 ,学 术 界 对 推荐 系统 的 研究 热度 一 直 很 高 ,逐步 形成 了 一 门 独立 的 


12.2.2 推荐 系统 应 用 案例 


目前 几乎 所 有 的 电子 商务 系统 .社交 网 络 .广告 推荐 .搜索 引擎 等 ,都 不 同 程度 地 使 用 了 
各 种 形式 的 推荐 系统 。 

案例 12-3 ”电子 商务 的 推荐 系统 

最 著名 的 电子 商务 推荐 系统 应 属 亚马逊 网 络 书 店 ,顾客 选择 一 本 自己 感 兴趣 的 书籍 , 马 
上 会 在 底下 看 到 一 行文 字 :“Customer Who Bought This Item Also Bought”。 亚 马 逊 是 在 
“对 同样 一 本 书 有 兴趣 的 读者 的 兴趣 在 某 种 程度 上 相近 ”的 假设 前 提 下 提供 这 样 的 推荐 ,此 
举 也 成 为 亚马逊 网 络 书店 为 人 所 津津 乐 道 的 一 项 服务 ,许多 网 络 书店 也 跟 进 了 这 样 的 推荐 
服务 。 

另外 一 个 著名 的 例子 是 Facebook 的 广告 ,系统 根据 个 人 资料 .朋友 感 兴趣 的 广告 等 对 
个 人 提供 广告 推销 ,也 是 一 项 协同 过 滤 重 要 的 里 程 碑 。 从 早期 单一 系统 内 的 邮件 、 文 件 过 
滤 ,到 跨 系 统 的 新 闻 、 电 影音 乐 过 滤 ,乃至 今日 横行 互联 网 的 电子 商务 ,虽然 目的 不 太 相 同 ， 
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但 带 给 使 用 者 的 方便 是 不 能 否定 的 。 

案例 12-4 淘宝 推荐 系统 

淘宝 开发 了 基于 个 性 化 推荐 的 5W 营销 系统 ,目标 是 为 各 个 产品 提供 商品 .店铺 人、 类 
目 属性 各 种 维度 的 推荐 。 它 的 核心 是 以 类 目 属性 和 社会 属性 为 纽带 ,将 人 、 商 品 和 店铺 建立 
起 联系 。 

淘宝 的 宝贝 推荐 是 基于 内 容 的 和 关联 规则 、 全 网 优质 宝贝 算 分 .根据 推荐 属性 筛选 
TOP、 基 于 推荐 属性 的 关联 关系 .采用 搜索 引擎 存储 和 检索 优质 宝贝 .加 入 个 性 化 用 户 信 
息 、 根 据 用 户 的 购买 和 收藏 记录 产生 可 推荐 的 关联 规则 。 优 质 宝贝 的 算 分 需要 考虑 商品 的 
相关 属性 ,包括 描述 评价、 名称、 违规 .收藏 人 气 、. 累 计 销 量 `UV 和 PV 等 。 此 外 ,推荐 系统 
根据 用 户 的 浏览 ,收藏 购买 行为 和 反馈 信息 ,在 Hadoop 上 计算 用 户 带 权重 的 标签 ,用 于 进 
行 个 性 化 推荐 。 在 个 性 化 推荐 之 上 ,淘宝 还 实现 了 基于 内 容 的 广告 投放 。 由 于 个 性 化 推荐 
出 来 的 物品 是 用 户 所 感 兴趣 的 ,所 以 基于 此 之 上 的 广告 投放 非常 行 之 有 效 。 

案例 12-5 豆 斩 有 的 推荐 引擎 -豆瓣 猜 

豆瓣 网 在 国内 互联 网 行业 美誉 度 很 高 ,是 一 家 以 帮助 用 户 发 现 未 知事 物 为 已 任 的 公司 。 
它 的 “豆瓣 猜 是 一 种 个 性 化 的 推荐 ,其 背后 采用 了 基于 用 户 的 协同 过 滤 技 术 。 确 定 什么 样 
的 产品 适合 推荐 ? 豆 辩 猜 提 出 ,选择 具有 媒体 性 的 产品 (Media Product) 来 进行 推荐 , 即 选 
择 多 样 、 口 味 要 .单位 成 本 不 重要 ,同时 能 够 广泛 传播 (Information Cascade) 的 产品 , 接 
着 在 对 真实 的 数据 集 进 行 定量 分 析 后 ,进一步 得 出 条 目 增长 相对 稳定 、 能 够 快速 获得 用 户 反 
馈 ,数据 稀疏 性 与 条 目 多样 性 .时 效 性 比较 平衡 的 产品 ,从 而 确定 适合 推荐 的 产品 。 豆 准 网 
的 推荐 引擎 面 对 高 成 长 性 的 挑战 ,通过 降低 存储 空间 .近似 算法 与 分 布 式 计算 的 设计 ,来 实 
现 对 基于 用 户 的 协同 过 滤 推 荐 系统 的 线性 扩展 。 

案例 12-6 ”Hulu 的 个 性 化 推荐 

Hulu 是 一 家 美国 的 视频 网 站 , 它 是 由 美国 国家 广播 环球 公司 (NBC Universal) 和 福 克 
斯 广播 公司 (Fox) 在 2007 年 3 月 共同 投资 建立 的 。 在 美国 ,Hulu 已 是 最 受 欢 迎 的 视频 网 
站 之 一 。 它 拥有 超过 250 个 渠道 合作 伙伴 、 超 过 600 个 顶级 广告 客户 、3 千 万 的 用 户 、3 亿 的 
视频 和 11 亿 的 视频 广告 。 广 告 是 衡量 视频 网 站 成 功 与 和 否 的 一 个 重要 标准 。 事 实证 明 ， 
Hulu 的 广告 效果 非常 好 , 若 以 每 千 人 为 单位 对 广告 计 费 ,Hulu 的 所 得 比 电视 台 在 黄金 时 段 
所 得 还 高 。Hulu 把 这 种 个 性 化 推荐 视频 的 思想 放 到 了 广告 投放 中 ,设计 出 了 一 套 个 性 化 广 
告 推荐 系统 。 通 过 对 视频 和 用 户 特点 的 分 析 ,Hulu 根据 用 户 的 个 人 信息 、 行 为 模型 和 反馈 ， 
设计 出 一 个 混合 的 个 性 化 推荐 系统 。 它 包含 了 基于 物品 的 协同 过 滤 机 制 、 基 于 内 容 的 推荐 、 
基于 人 口 统计 的 推荐 。 从 用 户 行为 中 提炼 出 来 的 主题 模型 ,用 于 给 用 户 推荐 视频 。 这 个 产 
品 通过 问答 的 形式 ,与 用 户 进行 交互 ,获取 用 户 的 个 人 喜欢 ,进一步 提高 推荐 的 个 性 化 。 









































123 零售 行业 大 数据 解决 方案 


12.3.1 大 数据 在 零售 行业 的 创新 性 应 用 


零售 大 数据 分 析 主 要 应 用 在 智慧 的 购物 体验 、 智 慧 的 商品 管理 和 供应 链 网 络 ,智慧 的 运 
营 三 个 领域 。 通 过 大 数据 打造 智慧 的 购物 体验 ,构建 智慧 的 商品 管理 和 供应 链 网 络 ,以 及 实 
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但 带 给 使 用 者 的 方便 是 不 能 否定 的 。 

案例 12-4 淘宝 推荐 系统 

淘宝 开发 了 基于 个 性 化 推荐 的 5W 营销 系统 ,目标 是 为 各 个 产品 提供 商品 .店铺 人、 类 
目 属性 各 种 维度 的 推荐 。 它 的 核心 是 以 类 目 属性 和 社会 属性 为 纽带 ,将 人 、 商 品 和 店铺 建立 
起 联系 。 

淘宝 的 宝贝 推荐 是 基于 内 容 的 和 关联 规则 、 全 网 优质 宝贝 算 分 .根据 推荐 属性 筛选 
TOP、 基 于 推荐 属性 的 关联 关系 .采用 搜索 引擎 存储 和 检索 优质 宝贝 .加 入 个 性 化 用 户 信 
息 、 根 据 用 户 的 购买 和 收藏 记录 产生 可 推荐 的 关联 规则 。 优 质 宝贝 的 算 分 需要 考虑 商品 的 
相关 属性 ,包括 描述 评价、 名称、 违规 .收藏 人 气 、. 累 计 销 量 `UV 和 PV 等 。 此 外 ,推荐 系统 
根据 用 户 的 浏览 ,收藏 购买 行为 和 反馈 信息 ,在 Hadoop 上 计算 用 户 带 权重 的 标签 ,用 于 进 
行 个 性 化 推荐 。 在 个 性 化 推荐 之 上 ,淘宝 还 实现 了 基于 内 容 的 广告 投放 。 由 于 个 性 化 推荐 
出 来 的 物品 是 用 户 所 感 兴趣 的 ,所 以 基于 此 之 上 的 广告 投放 非常 行 之 有 效 。 

案例 12-5 豆 斩 有 的 推荐 引擎 -豆瓣 猜 

豆瓣 网 在 国内 互联 网 行业 美誉 度 很 高 ,是 一 家 以 帮助 用 户 发 现 未 知事 物 为 已 任 的 公司 。 
它 的 “豆瓣 猜 是 一 种 个 性 化 的 推荐 ,其 背后 采用 了 基于 用 户 的 协同 过 滤 技 术 。 确 定 什么 样 
的 产品 适合 推荐 ? 豆 辩 猜 提 出 ,选择 具有 媒体 性 的 产品 (Media Product) 来 进行 推荐 , 即 选 
择 多 样 、 口 味 要 .单位 成 本 不 重要 ,同时 能 够 广泛 传播 (Information Cascade) 的 产品 , 接 
着 在 对 真实 的 数据 集 进 行 定量 分 析 后 ,进一步 得 出 条 目 增长 相对 稳定 、 能 够 快速 获得 用 户 反 
馈 ,数据 稀疏 性 与 条 目 多样 性 .时 效 性 比较 平衡 的 产品 ,从 而 确定 适合 推荐 的 产品 。 豆 准 网 
的 推荐 引擎 面 对 高 成 长 性 的 挑战 ,通过 降低 存储 空间 .近似 算法 与 分 布 式 计算 的 设计 ,来 实 
现 对 基于 用 户 的 协同 过 滤 推 荐 系统 的 线性 扩展 。 

案例 12-6 ”Hulu 的 个 性 化 推荐 

Hulu 是 一 家 美国 的 视频 网 站 , 它 是 由 美国 国家 广播 环球 公司 (NBC Universal) 和 福 克 
斯 广播 公司 (Fox) 在 2007 年 3 月 共同 投资 建立 的 。 在 美国 ,Hulu 已 是 最 受 欢 迎 的 视频 网 
站 之 一 。 它 拥有 超过 250 个 渠道 合作 伙伴 、 超 过 600 个 顶级 广告 客户 、3 千 万 的 用 户 、3 亿 的 
视频 和 11 亿 的 视频 广告 。 广 告 是 衡量 视频 网 站 成 功 与 和 否 的 一 个 重要 标准 。 事 实证 明 ， 
Hulu 的 广告 效果 非常 好 , 若 以 每 千 人 为 单位 对 广告 计 费 ,Hulu 的 所 得 比 电视 台 在 黄金 时 段 
所 得 还 高 。Hulu 把 这 种 个 性 化 推荐 视频 的 思想 放 到 了 广告 投放 中 ,设计 出 了 一 套 个 性 化 广 
告 推荐 系统 。 通 过 对 视频 和 用 户 特点 的 分 析 ,Hulu 根据 用 户 的 个 人 信息 、 行 为 模型 和 反馈 ， 
设计 出 一 个 混合 的 个 性 化 推荐 系统 。 它 包含 了 基于 物品 的 协同 过 滤 机 制 、 基 于 内 容 的 推荐 、 
基于 人 口 统计 的 推荐 。 从 用 户 行为 中 提炼 出 来 的 主题 模型 ,用 于 给 用 户 推荐 视频 。 这 个 产 
品 通过 问答 的 形式 ,与 用 户 进行 交互 ,获取 用 户 的 个 人 喜欢 ,进一步 提高 推荐 的 个 性 化 。 









































123 零售 行业 大 数据 解决 方案 


12.3.1 大 数据 在 零售 行业 的 创新 性 应 用 


零售 大 数据 分 析 主 要 应 用 在 智慧 的 购物 体验 、 智 慧 的 商品 管理 和 供应 链 网 络 ,智慧 的 运 
营 三 个 领域 。 通 过 大 数据 打造 智慧 的 购物 体验 ,构建 智慧 的 商品 管理 和 供应 链 网 络 ,以 及 实 


现 智 慧 的 运营 ,来 帮助 零售 企业 实现 价值 ,实现 “精准 营销 ”和 "个 性 化 服务 ”。 其 在 零售 行业 
有 以 下 创新 性 应 用 。 

(1) 大 数据 有 助 于 精确 零售 行业 市 场 定位 。 通 过 大 数据 的 市 场 数据 分 析 和 调研 可 以 帮 
助 企业 进行 品牌 精准 的 市 场 定 位 ,了 解 零售 行业 市 场 构成 、 细 分 市 场 特 征 、 消 费 者 需求 和 竞 
争 者 状况 等 众多 因素 ,提高 企业 品牌 市 场 定位 的 准确 度 。 

(2) 大 数据 成 为 零售 行业 市 场 营 销 的 利器 。 网 络 信息 涵盖 商家 信息 个 人 信息 、 行 业 资 
讯 .产品 使 用 体验 .商品 浏览 记录 ,商品 成 交 记 录 产品 价格 动态 等 海量 信息 。 这 些 零 售 行业 
大 数据 ,其 背后 隐藏 的 是 零售 行业 的 市 场 需求 .竞争 情报 ,企业 通过 统计 和 分 析 消 费 者 档案 
大 数据 库 来 掌握 消费 者 的 消费 行为 .兴趣 偏好 和 产品 的 市 场 口碑 现状 ,制定 有 针对 性 的 营销 
方案 和 营销 战略 。 

(3) 大 数据 支撑 零售 行业 收益 管理 。 通 过 对 建构 的 大 数据 统计 与 分 析 , 采 取 科学 的 预 
测 方法 ,建立 数学 模型 ,对 需求 预测 、 细 分 市 场 和 敏感 度 进行 分 析 , 实 现 企业 收益 最 大 化 
目标 。 

(4) 大 数据 创新 零售 行业 需求 开发 。 通 过 对 网 上 零售 行业 的 评论 数据 进行 收集 ,建立 
网 评 大 数据 库 , 然 后 再 利用 分 词 、 聚 类 、 情 感 分 析 了 解 消费 者 的 消费 行为 .价值 取 向 .评论 中 
体现 的 新 消费 需求 和 企业 产品 质量 问题 ,以 此 来 改进 和 创新 产品 .量化 产品 价值 ,制定 合理 
的 价格 及 提高 服务 质量 ,从 而 获取 更 大 的 收益 。 


12.3.2 零售 行业 大 数据 应 用 案例 


案例 12-7 沃尔玛 打造 商业 数据 中 心 

曾 创造 了 “啤酒 与 尿布 ”的 经 典 商业 案例 的 沃尔玛 是 最 早 开始 投资 和 部 署 大 数据 应 用 的 
传统 企业 巨头 之 一 ,在 大 数据 概念 引爆 流行 产业 界 之 前 ,沃尔玛 已 经 开始 了 网 站 数据 库 整 合 
迁移 和 Hadoop 集群 扩展 工作 ,希望 通过 大 数据 应 用 让 消费 者 成 为 bigger Spender, 同 时 在 
电子 商务 领域 奋起 直 追 领导 者 亚马逊 。 通 过 自身 数据 积累 整合 及 并 购 研 发 ,沃尔玛 已 然 拥 
有 一 个 涵盖 消费 者 线 下 交易 数据 、 沃 尔 玛 网 络 商 城 电 子 数据 与 社交 媒体 应 用 数据 为 一 体 的 
实时 更 新 积累 的 大 数据 库 , 将 沃尔玛 在 作出 决策 前 的 执行 成 本 降 到 最 低 。 

案例 12-8 ”淘宝 开放 数据 魔方 

淘宝 的 “数据 魔方 "包含 网 站 所 有 的 交易 数据 。 商 家 、 企 业 及 消费 者 将 在 未 来 分 享 到 其 
海量 原始 数据 ,数据 开放 将 有 原则 、 分 层次 地 进行 。 通 过 其 “数据 魔方 ”平台 ,商家 可 以 直接 
获取 行业 宏观 情况 .自己 品牌 的 市 场 状 况 .消费 者 行为 情况 等 ,通过 第 三 方 研究 机 构 合作 的 
方式 ,为 商家 带 来 基于 数据 之 上 的 分 析 、 解 读 、 业 务 建设 等 服务 。 目 前 ,其 他 在 线 销售 网 站 也 
会 向 用 户 公开 一 些 交 易 数 据 。 例 如 ,eBay 向 用 户 提供 不 同类 别 产品 的 最 流行 搜索 条 目 , 用 
户 注册 后 可 以 看 到 产品 平均 售 价 、 最 成 功 的 商品 介绍 关键 词 等 信息 。 

案例 12-9 Target: 准确 判断 哪 位 顾客 怀孕 

在 大 数据 推动 的 商业 革命 瞳 涌 中 ,要 么 学 会 使 用 大 数据 的 杠杆 创造 商业 价值 ,要 么 被 大 
数据 驱动 的 新 生 代 商业 格局 淘汰 。 最 早 关于 大 数据 的 故事 发 生 在 美国 第 二 大 的 超市 塔 吉 特 
百货 (Target) 。Target 的 市 场 营 销 人 员 通 过 Target 的 顾客 数据 分 析 部 (Guest Data & 
Analytical) 建 立 的 模型 , 选 出 了 25 种 典型 商品 的 消费 数据 构建 了 “怀孕 预测 指数 ”, 通 过 这 
个 指数 ,Target 能 够 在 很 小 的 误差 范围 内 预测 到 顾客 的 怀孕 情况 ,因此 Target 就 能 早早 地 
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把 孕妇 优惠 广告 寄 发 给 顾客 。 根据 Andrew Pole 的 大 数据 模型 ,Target 制订 了 全 新 的 广告 
营销 方案 ,结果 Target 的 孕期 用 品 销售 呈现 了 爆炸 性 的 增长 。Target 的 大 数据 分 析 技 术 从 
孕妇 这 个 细 分 顾客 群 开 始 向 其 他 各 种 细 分 客户 群 推广 。 因此 ,Target 的 销售 额 从 440 亿美 
元 增长 到 670 亿美 元 。Target 的 这 种 优惠 广告 间接 地 令 一 个 蒙 在 鼓 里 的 父亲 意外 发 现 他 
高 中 生 的 女儿 怀孕 了 ,此 事 甚至 被 (纽约 时 报 ) 报 道 , 结 果 Target 大 数据 的 巨大 威力 稻 动 了 
全 美 。 
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12.4.1 大 数据 时 代 下 金融 业 的 机 遇 和 面临 的 挑战 


大 数据 是 重 塑 金融 竞争 格局 的 一 个 重要 支撑 和 抓 手 , 对 它 的 有 效 利用 将 带动 整个 行业 
的 发 展 ,给 整个 金融 体系 带 来 创新 动能 。 

(1) 在 客户 营销 方面 ,银行 可 通过 大 数据 的 应 用 搜集 和 掌握 更 为 广泛 的 客户 信息 ,为 客 
户 构建 办 新 的 360° 画 像 , 分 析 粒 度 将 从 原 有 客户 群体 分 析 精 细 化 到 每 个 客户 的 个 体 分 析 ， 
及 时 获知 客户 行为 ,预测 客户 期 待 ,组 织 匹配 的 产品 与 个 性 化 服务 快速 响应 客户 的 需求 。 

(2) 在 风险 管理 方面 ,银行 利用 大 数据 收集 并 量化 互联 网 上 的 各 类 信息 ,如 和 餐饮 商户 的 
客户 评价 信息 等 。 利 用 这 些 信息 通过 模型 计算 商户 的 信用 情况 和 违约 概率 ,突破 传统 单纯 
以 财务 信息 作为 评价 要 素 的 做 法 ,引入 交易 行为 、 客 户 评价 ,公用 事业 缴费 记录 等 多 侧面 .各 
角度 的 关联 数据 ,以 大 数据 的 思维 构建 新 的 信用 评价 模型 ,更 精确 、 更 有 效 地 评价 客户 ,打造 
智能 化 引擎 支持 的 “直通 式 " 全 流程 在 线 融 资 服务 模式 ,提高 融资 效率 ,降低 信贷 风险 。 

(3) 在 产品 创新 和 资源 配置 方面 ,大 数据 可 以 帮助 银行 及 时 深入 了 解 自身 的 运营 情况 ， 
辅助 改造 和 优化 业务 管理 流程 ,改善 运行 效率 ,提高 产品 创新 速度 ,更 有 效 地 开展 绩效 管理 
和 资源 配置 。 

除 此 之 外 ,大 数据 还 可 以 应 用 在 实时 反 欺 诈 监 控 、 预 测 客户 流失 ,打造 增 值 服务 等 方面 ， 
全 面 提高 银行 的 经 营 和 服务 能 力 。 


12.4.2 金融 行业 大 数据 应 用 案例 


金融 行业 具有 信息 化 程度 高 .数据 质量 好 、 数 据 维 度 全 与 数据 场景 多 的 特点 ,因此 大 数 
据 应 用 的 成 熟 度 较 高 ,数据 应 用 也 取得 了 较 好 的 成 绩 。 特 别 是 一 些 股份 制 商 业 银 行 的 信用 
卡 中 心 ,保险 与 证 券 企业 , 大 数据 应 用 已 经 取得 了 成 效 , 并 得 到 了 行业 的 认可 。 

一 般 来 讲 , 大 数据 在 金融 企业 实现 场景 落地 分 为 五 步 ,分 别 是 专业 化 团队 、 业 务 和 数据 
梳理 、 外 部 咨询 和 工具 的 引入 、 业 务 场景 的 数据 变现 、 高 层 汇 报 和 支持 。 大 数据 应 用 和 场景 
落地 在 领先 的 金融 企业 也 历经 了 若干 年 ,对 这 些 成 功 实施 大 数据 场景 落地 的 企业 进行 经 验 
总 结 , 可 帮助 金融 企业 找到 一 条 有 效 的 捷径 。 

案例 12-10 淘宝 网 掘 金 大 数 据 金 融 市 场 

随 着 国内 网 购 市 场 的 迅速 发 展 .淘宝 网 等 众多 网 购 网 站 的 市 场 争夺 战 也 进入 白热化 状 
态 , 网 络 购物 网 站 也 开始 推出 越 来 越 多 的 特色 产品 和 服务 。 

(1) 余额 宝 : 余额 宝 是 互联 网 金融 产品 。 相 比 普通 的 货币 基金 ,余额 宝 鲜明 的 特色 当 

















属 大 数据 。 以 基金 的 申购 、 赎 回 预 测 为 例 ,基于 淘宝 和 支付 宝 的 数据 平台 ,可 以 及 时 把 握 申 
购 、 赎 回 变动 信息 。 

(2) 淘宝 信用 贷款 : 淘宝 信用 贷款 是 阿里 金融 旗下 专门 针对 淘宝 卖家 进行 金融 支持 的 
贷款 产品 。 淘 宝 平台 通过 以 卖家 在 淘宝 网 上 的 网 络 行为 数据 做 一 个 综合 的 授信 评分 ,卖家 
纯 任 信用 拿 贷 款 , 无 须 抵押 物 , 无 须 担保 人 。 由 于 其 非常 吻合 中 小 卖家 的 资金 需求 ,有 重视 
信用 ,无 担保 .抵押 的 门槛 ,更 加 上 其 申请 流程 非常 便捷 , 仅 需 要 线 上 申请 , 几 分 钟 内 就 能 获 
贷 , 被 不 少 卖家 戏称 为 "史上 最 轻松 的 贷款 ,也 成 为 淘宝 网 众多 卖家 进行 资金 周转 的 重要 
手段 。 

(3) 阿里 小 贷 : 淘宝 网 的 “阿里 小 贷 ” 更 是 得 益 于 大 数据 , 它 依托 阿里 巴巴 (B2B) 淘宝 、 
支付 宝 等 平台 数据 ,不 仅 可 有 效 识别 和 分 散 风险 ,提供 更 有 针对 性 、 多 样 化 的 服务 ,而 且 批 量 
化 流水 化 的 作业 使 得 交易 成 本 大 幅 下 降 。 每 天 ,海量 的 交易 和 数据 在 阿里 的 平台 上 产生 ， 
阿里 通过 对 商户 最 近 100 天 的 数据 分 析 ,就 能 知道 哪些 商户 可 能 存在 资金 问题 ,此 时 的 阿里 
贷款 平台 就 有 可 能 出 马 , 同 潜在 的 贷款 对 象 进行 沟通 。 

案例 12-11 IBM 用 大 数据 预测 股价 走势 

IBM 使 用 大 数据 信息 技术 成 功 开发 了 “经 济 指标 预测 系统 ”。 借 助 该 预测 系统 ,可 通过 
统计 分 析 新 闻 中 出 现 的 单词 等 信息 来 预测 股价 等 走势 。 首 先 从 互联 网 上 的 新 闻 中 搜索 与 
“新 订单 ”等 与 经 济 指标 有 关 的 单词 ,然后 结合 其 他 相关 经 济 数 据 的 历史 数据 分 析 与 股价 的 
关系 ,从 而 得 出 预测 结果 。IBM 以 美国 “ISM 制造 业 采购 经 理 人 指数 "为 对 象 进行 了 验证 试 
验 , 该 指数 以 制造 业 中 的 大 约 20 个 行业 、300 多 家 公司 的 采购 负责 人 为 对 象 ,调查 新 订单 和 
雇员 等 情况 之 后 计算 得 出 。 据 悉 ,IBM 的 试验 仅 用 了 6 小 时 ,就 计算 出 了 分 析 师 需要 花费 
数 日 才能 得 出 的 预测 值 ,而 且 预 测 精度 几乎 一 样 。 

案例 12-12 ”汇丰 银行 采用 SAS 管理 风险 

汇丰 银行 与 SAS 在 防范 信用 卡 和 借 记 卡 欺诈 的 基础 上 ,构建 了 其 全 球 业 务 网 络 的 实时 
欺诈 防范 侦 测 系统 。 共 同 扩展 了 SAS 防 欺 诈 管 理解 决 方案 的 功能 ,为 多 种 业务 线 和 渠道 提 
供 完善 的 欺诈 防范 系统 。 这 些 增强 功能 有 助 于 全 面 监控 客户 、 账 户 和 渠道 业务 活动 ,进一步 
提高 分 行 交易 ,银行 转账 和 在 线 付款 欺诈 以 及 内 部 欺诈 的 防范 能 力 。 通 过 监控 客户 行为 , 汇 
丰 银 行 可 以 优化 并 更 加 有 效 地 利用 侦 测 资源 。 汇 丰 银 行 利 用 SAS 系统 ,通过 收集 和 分 析 大 
数据 解决 复杂 问题 ,并 获得 非常 精确 的 洞察 ,以 加 快 信息 获取 速度 和 超越 竞争 对 手 。 因 此 ， 
汇丰 银行 还 将 继续 采用 SAS 告警 管理 、 例 程 和 队列 优先 级 软件 ,提高 运营 效率 ,以 便 迅 速 启 
动 紧 急 告 警 。 

案例 12-13 ”Kabbage 用 大 数据 开辟 新 路 径 

Kabbage 是 一 家 为 网 店 店主 提供 营运 资金 贷款 服务 的 创业 公司 ,总 部 位 于 美国 亚 特 兰 
大 ,截至 目前 已 经 成 功 融资 6000 多 万 美元 。Kabbage 与 “阿里 小 贷 ” 的 经 营 模 式 类 似 ,通过 
查看 网 店 店 主 的 销售 和 信用 记录 、 顾 客流 量 、 评 论 以 及 商品 价格 和 存货 等 信息 ,来 最 终 确定 
是 否 为 他 们 提供 贷款 以 及 贷 多 少 金 额 。Kabbage 通过 支付 工具 PayPal 的 支付 API 来 为 网 
店 店主 提供 资金 贷款 ,这 种 贷款 资金 到 账 的 速度 相当 快 ,最 快 十 分 钟 就 可 以 到 账 。Kabbage 
用 于 贷款 判断 的 支撑 数据 的 来 源 除了 网 上 搜索 和 查看 外 ,还 来 自 网 上 商家 的 自主 提供 , 且 提 
供 的 数据 多 少 直接 影响 最 终 的 贷款 情况 。 同 时 ,Kabbage 也 通过 与 物流 公司 UPS、 财 务 管 
理 软件 公司 Intuit 合作 ,扩充 数据 来 源 渠 道 。 目 前 ,使 用 Kabbage 贷款 服务 的 网 店 店主 已 
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达 近 万 家 ,Kabbage 的 服务 范围 目前 仅 限 于 美国 境内 ,不 过 公司 打算 利用 这 轮 融资 将 服务 拓 
展 至 其 他 国家 。 

基于 大 数据 的 商业 模式 创新 过 程 有 两 个 核心 环节 : 一 是 数据 获取 ; 二 是 数据 的 分 析 利 
用 。 在 本 案例 中 ,Kabbage 与 阿里 金融 的 区 别 在 于 数据 获取 方面 ,前 者 是 从 多 元 化 的 渠道 收 
集 数据 ,后 者 则 是 借助 旗下 平台 的 数据 积累 ,其 中 网 上 商家 可 自主 提供 数据 且 其 数据 的 多 少 
直接 决定 最 终 的 贷款 额度 与 成 本 ,这 充分 体现 出 大 数据 的 资产 价值 ,如 同 传统 的 抵押 物 一 样 
可 以 换取 资金 。Kabbage 借助 大 数据 技术 ,并 结合 金融 行业 的 特点 ,有 效 地 控制 了 风险 , 实 
现 了 完美 融合 和 创新 。 


12.4.3 信用卡 反 欺诈 预测 模型 构建 案例 


本 小 节 通 过 利用 信用 卡 的 历史 交易 数据 ,进行 机 器 学 习 , 构 建 信用 卡 反 欺 诈 预测 模型 ， 
提前 发 现 客户 信用 卡 被 盗 刷 的 事件 。 本 实例 基于 Python 3. 6 实现 ,数据 来 源 于 Kaggle 
Credit Card Fraud Detection, 

1. 数据 简介 及 场景 分 析 

数据 集 包 含 由 欧洲 持 卡 人 于 2013 年 9 月 使 用 信用 卡 进 行 交 易 的 数据 。 此 数据 集 显示 
两 天 内 发 生 的 交易 ,284807 笔 交 易 中 有 492 笔 被 瓷 刷 。 数 据 集 非常 不 平衡 ,积极 的 类 (被 盗 
刷 ) 占 所 有 交易 的 0.173%。 

它 只 包含 作为 PCA 转换 结果 的 数字 输入 变量 。 特 征 V1, V2,… ,V28 是 使 用 PCA 获 
得 的 主要 组 件 , 没 有 用 PCA 转换 的 特征 是 “时 间 ? 和 * 量 ”。 变 量 描述 见 表 12-1。 特 征 * 时 间 ” 
包含 数据 集中 每 个 事务 和 第 一 个 事务 之 间 经 过 的 秒 数 。 特 征 “ 金 额 * 是 交易 金额 ,此 特征 可 
用 于 实例 依赖 的 成 本 认 知 学 习 。 特 征 “ 类 ”是 响应 变量 ,如 果 发 生 被 盗 刷 , 则 取 值 1, 和 否则 




















为 0。 
表 12-1 变量 描述 
变量 编号 变量 名 释 义 数据 类 型 
29 Amount 交易 金额 (欧元 ) Float64 
30 Time 每 个 事务 和 第 一 个 事务 之 间 经 过 的 时 间 ( 秒 ) Float64 
31 Class 目标 变量 ; 确定 信用 卡 是 否 被 盗 , 是 为 1, 否 为 0 Int64 





(1) 首先 ,数据 集中 的 数据 是 持 卡 人 两 天 内 的 信用 卡 交 易 数据 ,这 份 数据 包含 很 多 维 
度 ,要 解决 的 问题 是 预测 持 卡 人 的 信用 卡 是 否 会 被 盗 刷 。 持 卡 人 的 信用 卡 是 否 会 被 盗 刷 只 
有 两 种 可 能 ,被 盗 刷 或 不 被 盗 刷 。 又 因为 这 份 数据 是 打 标 好 的 (字段 Class 是 目标 列 ) ,也 就 
是 说 它 是 一 个 监督 学 习 的 场景 。 于 是 ,判定 信用 卡 持 卡 人 是 否 会 被 盗 刷 是 一 个 二 元 分 类 问 
题 ,意味 着 可 以 通过 二 分 类 相关 的 算法 来 找到 具体 的 解决 办 法 .本 项 目 选用 的 算法 是 逻辑 斯 
带 回 归 (Logistic Regression) 。 

(2) 分 析 数 据 : 数据 是 结构 化 数据 ,不 需要 做 特征 抽象 。 特 征 V1 至 V28 是 经 过 PCA 
处 理 , 而 特征 Time 和 Amount 的 数据 规格 与 其 他 特征 差别 较 大 ,需要 对 其 做 特征 缩放 ,将 
特征 缩放 至 同一 个 规格 。 在 数据 质量 方面 ,没有 出 现 乱 码 或 空 字符 的 数据 ,可 以 确定 字段 
Class 为 目标 列 , 其 他 列 为 特征 列 。 

(3) 这 份 数据 是 全 部 标 好 的 数据 ,可 以 通过 交叉 验证 的 方法 对 训练 集 生成 的 模型 进行 





评估 。70% 的 数据 进行 训练 ,30% 的 数据 进行 预测 和 评估 。 

现 对 该 业务 场景 进行 总 结 如 下 : 

根据 历史 记录 数据 学 习 并 对 信用 卡 持 卡 人 是 否 会 发 生 被 盗 刷 进行 预测 ,二 分 类 监督 学 
习 场 景 ,选择 逻辑 斯 带 回归 算法 。 

数据 为 结构 化 数据 ,不 需要 做 特征 抽象 ,但 需要 做 特征 缩放 。 

2. 加 载 相 应 的 包 

主要 加 载 了 用 于 科学 计算 的 numpy 和 pandas; 用 于 可 视 化 的 matplotlib 和 seaborn; 
机 器 学 习 相 关 库 sklearn。 


# Imports 

# 加 载 基 础 计算 包 > import numpy as np 

> import pandas as pd 

> import datetime 

> import matplotlib.pyplot as plt # 加 载 matplotlib 进行 图 像 可 视 化 
> import matplotlib.gridspec as gridspec 

> import seaborn as sns # 加 载 seaborn 库 绘图 加 强 
>sns.set style('whitegrid') 

> import missingno as msno # 通 过 missingno 查看 缺失 值 

> import warnings 

>warnings.filterwarnings ('ignore') 

# 忽 略 警告 

>pd.set option('display.float format',lambda x:'% .4f' % x) 
# 为 了 直观 地 显示 数字 ,不 采用 科学 计数 法 

> from imblearn.over sampling import SMOTE 

> import itertools 

> import os 

# import sklearn # 加 载 sklearn 机 器 学 习 包 

> from sklearn.linear model import LogisticRegression 
# 加 载 逻辑 斯 带 回归 

> from sklearn.ensemble import RandomForestClassifier 
# 加 载 随机 森林 

> from sklearn.model selection import GridSearchCV 
#Grid 模 型 调 优 

> from sklearn.model selection import train test split 
> from sklearn.model selection import train test split 
# 分 离 训练 测试 集 

> from sklearn.metrics import confusion matrix 

# 混 淆 矩阵 

> from sklearn.metrics import precision recall curve 

> from sklearn.metrics import recall score 

>from sklearn.metrics import classification report 

> from sklearn.metrics import accuracy_score 

# 加 载 standardscaler 继 续 数据 标准 化 


> from sklearn.preprocessing import StandardScaler 


3. 数据 获取 与 解析 
通过 查看 数据 结构 类 型 而 了 解 原始 数据 的 有 关 信 息 。 


>data_cr = pd.read csv('creditcard.csv', encoding = "latin-19) 


# 读 取 csvV 为 格式 的 数据 
>data_cr.head() # 查 看 数据 的 前 五 行 , 见 表 12- 2 


表 12-2 ”Out 数据 前 五 行 





































































































Time| Vl V2 V3 V4 V25 V26 V27 V28 |Amount | Class 
0| 0 | 一 1.3598| 一 0.0728|2.5363| 1.3782|... | 0.1285| 一 0.1891| 0. 1336| 一 0.0211| 149.62 | 0 
1| 0 1.1919| 0.2662|0.1665| 0.4482| .… | 0.1672 0.1259 一 0.009 | 0.01471 2.69| 0 
2| 1 | 一 1.3584| 一 1.3402|1.7732| 0. 3798| .… | 一 0. 3276| 一 0. 1391| 一 0. 0554| 一 0. 0598| 378.66 | 0 
3| 1 | 一 0.9663| 一 0.1852|1.793 | 一 0.8633| .… | 0.6474| 一 0.2219 0.0627| 0.0615| 123.5 0 
4| 2 | 一 1.1582| 0.8777|1.5487| 0.403 .| 一 0.206 | 0.5023 0.2194| 0.2152 69.99 | 0 
> data_cr.shape # 查 看 数据 集 大 小 
Out: 
(284807，31) 
数据 集 由 28 万 行 ,31 列 组 成 。 
>data_cr.info() # 查 看 数据 集 基 本 信息 , 见 表 12-3 
Out: 
< class 'pandas.core.frame.DataFrame'> 
RangeIndex: 284807 entries, 0 to 284806 
Data columns (total 31 columns) : 
Time 284807 non- null float64 
Ml 284807 non- null float64 
V2 284807 non- null float64 
V3 284807 non- null float64 
V4 284807 non- null float64 
V25 284807 non- null float64 
V26 284807 non- null float64 
V27 284807 non- null float64 
V28 284807 non- null float64 
Amount 284807 non- null float64 
Class 284807 non- null int64 
表 12-3 数据 表 
count mean std min 25% 50% 75% max 
Time | 284807 |94813. 8596 | 47488. 146 0 54201.5 84692 139320.5 | 172792 
Vl 284807 0 1.9587 一 56. 4075| 一 0.9204 0.0181 1.3156 2.4549 
V2 284807 0 1.6513 一 72.7157| 一 0.5985 0.0655 0.8037 |22.0577 
V3 284807 0 1.5163 一 48.3256| 一 0.8904 0. 1798 1.0272 9. 3826 
V4 284807 0 1.4159 一 5.6832| 一 0.8486 | 一 0.0198 0.7433 |16.8753 
V5 284807 0 1.3802 | 一 113.7433| 一 0.6916 | 一 0.0543 0.6119 |34.8017 
V24 | 284807 0 0. 6056 一 2.8366| 一 0.3546 0. 041 0. 4395 4.5845 
V25 | 284807 0 0. 5213 一 10. 2954| 一 0.3171 0.0166 0.3507 7.5196 
V26 | 284807 0 0. 4822 一 2.6046| 一 0. 327 一 0.0521 0. 241 3.5173 
V27 | 284807 0 0. 4036 一 22.5657| 一 0.0708 0.0013 0. 091 31. 6122 









































大 数据 
挖掘 
续 表 
count mean std min 25% 50% 75% max 
V28 284807 0 0. 3301 一 15. 4301 一 0. 053 0.0112 0.0783 33. 8478 
Amount| 284807 | 88.3496 250. 1201 0 5.6 22 77.165 |25691.16 
Class | 284807 0.0017 0.0415 0 0 0 0 1 





























dtypes: float64(30), int64(1) 
memory usage: 67.4 MB 


>data_cr.describe () .T # 查 看 数据 集 基本 统计 信息 

通过 上 述 信息 得 知 ,变量 V1 一 V28 为 经 过 标准 化 的 数据 ,数据 类 型 为 float-64; time 类 
型 代表 时 间 ,范围 在 0 一 172782 之 间 ,单位 为 秒 ,数据 类 型 为 float-64; amount 代表 交易 金 
额 ,最 大 值 为 25691 ,平均 数 为 88 ,数据 类 型 为 float-64; class 为 目标 变量 ,类 型 为 0-1 变量 ， 
数据 类 型 为 int-64。 


>msno.matrix(data_cr) # 查 看 缺失 值 , 见 图 12- 1 
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图 12-1 数据 结构 图 


we 12-1 可 以 获知 ,数据 集 不 存在 缺失 值 ,因此 无 须 作 缺失 值 处 理 。 

.特征 工程 

ey 不 利于 进行 模型 的 构建 ,因此 需要 通过 对 数据 的 深度 探 
索 ,从 中 选择 出 对 是 否 为 欺诈 影响 较 大 的 变量 ,以 提高 模型 的 正确 率 。 

1) 目标 变量 分 布 可 视 化 

利用 class 变量 构建 柱状 图 和 饼 图 ,查看 目标 变量 的 数据 分 布 , 见 图 12-2。 








>fig, axs = plt.subplots(1,2,figsize= (14,7)) 
>sns.countplot (x = 'Class', data=data cr, ax = axs[0]) 

>axs[0] .set title ("Frequency of each Class") 

>data_cr[ "class"] .value counts() .plot (x=None, y= None, kind= 'pie', ax = axs[1], autopct= 
'g 1.2f% SS ') 

>axs[1] .set title ("Percentage of each Class") 

>Plt.show () 

# 查 看 目标 列 的 情况 
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>data cr.groupby ("Class") .size() 
Out: 

Class 

0 284315 

E 492 

dtype: int64 


Frequency of each Class Percentage of each Class 


Cass 





图 12-2 目标 变量 的 数据 分 布 


通过 图 12-2 和 变量 输出 情况 可 知 , 数 据 集 的 284807 笔 交 易 中 有 492 笔 是 信用 卡 被 盗 刷 交 
易 , 信 用 卡 被 盗 刷 交易 占 总 体 比例 为 0.17%。 信 用 卡 交易 正常 和 被 瓷 刷 两 者 数量 不 平衡 ,样本 
不 平衡 影响 分 类 器 的 学 习 , 本 小 节 稍 后 将 会 使 用 过 采样 的 方法 解决 样本 不 平衡 的 问题 。 

2) 特征 衍生 

特征 Time 的 单位 为 秒 , 需 要 将 其 转化 为 以 小 时 为 单位 。 

>data cr[ 'Hour'] = data cr[ "Time"] .apply (lambda x : divmod(x, 3600)[0]) 

3) 特征 选择 

通过 对 数据 的 探索 和 可 视 化 分 析 得 出 变量 与 目标 变量 的 关系 ,进行 特征 筛选 ,选择 性 保 
留 与 目标 变量 相关 性 较 大 的 特征 ,以 提高 后 续 建 模 的 准确 率 。 

(1) 查看 盗 刷 交易 .交易 金额 和 交易 次 数 的 关系 。 通 过 Amount 变量 建立 柱状 图 ,如 
图 12-3 所 示 , 对 比 查 看 信用 卡 欺诈 数据 与 正常 数据 之 间 金 额 的 关系 。 


>f£, (axl, ax?2) = plt.subplots(2, 1, sharex= True, figsize= (16,4)) 


>bins = 30 

>axl.hist (data cr[ "Amount"][data cr[ "class"]= = 1], bins = bins) 
>axl.set title('Fraud') 

>ax2.hist (data cr[ "Amount"][data cr["class"] = = 0], bins = bins) 


>ax?2.set title('Normal') 

>plt.xlabel ('Amount ($ )') 
>plt.ylabel ('Number of Transactions') 
>plt.yscale('l0g') 

>plt.show!() 
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图 12-3 信用卡 欺诈 数据 与 正常 数据 之 间 金 额 关 系 柱状 图 


通过 图 12-3 可 知 ,信用 卡 被 盗 刷 发 生 的 金额 与 信用 卡 正常 用 户 发 生 的 金额 相 比 ,呈现 
散 而 小 的 特点 ,这 说 明 信 用 卡 盗 刷 者 为 了 不 引起 持 卡 人 的 注意 ,更 偏向 选择 小 金额 消费 。 

(2) 查看 用 户 消费 时 间 段 偏 受 。 利 用 time 时 间 变 量 建 立 factorplot, 如 图 12-4 所 示 ,以 
查看 信用 卡 消费 时 间 的 分 布 情况 。 





> sns.factorplot (x= "Hour", data=data cr, kind="count", palette= "ocean", size=6, aspect=3) 





图 12-4 ”信用卡 消 费时 间 的 分 布 图 


从 图 12-4 可 知 ,每 天 早上 9 点 到 晚上 11 点 是 信用 卡 消费 的 高 频 时 间 有 段 。 
(3) 查看 盗 刷 交易 、 交 易 金额 和 交易 时 间 的 关系 。 通 过 Amount 金额 和 time 时 间 两 个 
变量 ,分 别 对 信用 卡 欺 诈 数 据 和 正常 数据 建立 散 点 图 ,如 图 12-5 所 示 , 对 比 观察 时 间 与 交易 


金额 的 分 布 状况 。 
>£, (axl, ax2) = plt.subplots(2, 1, sharex=True, figsize= (16,6)) 
>axl.scatter (data cr[ "Hour"][data cr[ "class"] == 1], 
data cr[ "Amount"][data cr[ "class"] == 1]) 
>axl.set title('Fraud') 
>ax2.scatter (data cr[ "Hour"][data cr[ "class"] == 0], 
data cr[ "Amount"][data cr["class"] == 0]) 


>ax2.set title('Normal') 
>plt.xlabel ('Time (in Hours) ') 
>plt.ylabel ('Amount') 
>plt.show!() 


# 分 别 查看 欺诈 数据 与 正常 数据 关于 金额 的 统计 量 
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>print ("Fraud Stats Summary") 


>print (data cr[ "Amount"][data cr[ "class"] == 1].describe()) 
>print () 

>print ("Normal Stats Summary") 

>print (data cr[ "Amount"][data cr[ "class"] == 0].describe()) 
Out: 


Fraud Stats Summary 
count 492.0000 


mean 122,2113 
std 256.6833 
min 0.0000 
25% 1.0000 
50% 9.2500 
75% 105.8900 


max 2125.8700 

Name: Amount, dtype: float64 
Normal Stats Summary 

count 284315.0000 


mean 88.2910 
std 250.1051 
min 0.0000 
25% 5.6500 
50% 22.0000 
75% 77.0500 
max 25691.1600 


Name: Amount, dtype: float64 
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图 12-5 时 间 与 交易 金额 的 分 布 状况 散 点 图 


从 图 12-5 可 以 看 出 ,在 信用 卡 被 盗 刷 样本 中 , 离 群 值 发 生 在 客户 使 用 信用 卡 消费 更 低 
频 的 时 间 段 。 信 用 卡 被 盗 刷 数量 案 发 最 高 峰 在 第 一 天 上 午 11 点 达到 43 次 ,其 余 发 生 信用 
卡 被 盗 刷 案 发 时 间 在 晚上 时 间 11 点 至 第 二 天 早上 9 点 之 间 ,说 明 信 用 卡 盗 刷 者 为 了 不 引起 
持 卡 人 注意 ,更 喜欢 选择 持 卡 人 的 睡觉 时 间 和 消费 频率 较 高 的 时 间 点 作案 ; 同时 ,信用 卡 发 
生 被 盗 刷 的 最 大 值 为 2125. 87 美元 。 

(4) 查看 信用 卡 卡 正常 用 户 与 被 盗 刷 用 户 之 间 的 区 别 。 上 述 代 码 通过 目标 变量 class 




















分 别 获 取信 用 卡 坎 诈 与 正常 的 数据 ,并 分 别 计算 tt 





二 者 的 相关 系数 矩阵 。 对 相关 系数 矩阵 





建立 热 图 进行 可 视 化 ,查看 各 变量 之 间 的 关系 。 


# 指 定 Xfraud 为 信用 卡其 诈 数据 ,xnonFraud 为 信用 卡 正常 数据 
>Xfraud = data cr.loc[data cr["class"] == 1] 
>XnonFraud = data cr.loc[data cr[ "class"] == 0] 
>correlationNonFraud = XnonFraud.loc[:, data cr.columns ! = 'Class'].corr() 
# 利 用 corr () 函 数 求 相关 系数 矩阵 
>mask = np.zeros like (correlationNonFraud) 
# 建 立 与 corrlationNonFraud 相同 的 矩阵 mask 
>indices = np.triu indices from(correlationNonFraud) 
# 取 corrlationNonFraud 上 三 角 的 索引 
>mask[ indices] = True #mask 的 上 三 角 设 为 1 
>a= mask[indices] 
# 建 立 热 力图 ,如 图 12-6 所 示 , 表 示 各 变量 之 间 的 相关 性 
>grid kws = {"width ratios": (.9, .9, .05), "wspace": 0.2} 
>£, (axl, ax2, char ax) = plt.subplots(l1l, 3, gridspec kw=grid kws,figsize = (14, 9)) 
>cmap = sns.diverging palette (220，8，as_cmap= True) 
>axl =sns.heatmap (correlationNonFraud, ax = axl，vmin = -1，vmax = l,cmap= cmap, square 
= False, linewidths = 0.5, mask = mask, cbhar = False) 
# 构 建 过 程 中 使 用 mask 遮挡 系数 矩阵 的 上 半 部 分 
>axl.set xticklabels(axl.get xticklabels(), size= 16); 
>axl.set yticklabels (axl.get yticklabels(), size= 16); 
>axl.set title('Normal', size = 20) 
>correlationFraud = Xfraud.loc[ :， data_cr.columns ! = 'Class'] .corr() 
>ax2 = sns.heatmap (correlationFraud, wmin= -1, max= 1，cmap = cmap,ax = ax2, 
square = False, linewidths = 0.5, msk= mask, 
yticklabels = False,cbar ax = cbar ax, 
cbar kws={"orientation': 'vertical', 'ticks': [-1, -0.5, 0, 0.5, 1]}) 
>ax2.set xticklabels (ax2.get xticklabels(), size = 16); 
>ax2.set title('Fraud', size = 20); 
>cbar ax.set yticklabels(cbar ax.get yticklabels(), size= 14); 
>P1t.show () 


由 图 12-6 可 以 看 出 ,信用 卡 被 盗 刷 的 事件 中 ,部 分 变量 之 间 的 相关 性 更 明显 。 其 中 , 变 


量 Vl、V2、V3、V4、V5、V6、V7、V9、V10、V11、V12、V14、V16、V17 和 V18 以 及 V19 之 间 
的 变化 在 信用 卡 被 盗 刷 的 样本 中 呈现 一 定 的 规律 。 


(5) 削减 变量 。 通 过 表示 不 同 变量 在 信用 卡 被 盗 剧 和 信用 卡 正常 的 不 同 分 布 情况 ,将 


选择 在 不 同 信用 卡 状态 下 的 分 布 有 明显 区 别 的 变量 。 因 此 剔除 变量 V8、V13、V15、V20、 
V21、V22、V23、V24、V25、V26、V27 和 V28。 这 与 开始 用 相关 性 图 谱 观 察 得 出 的 结论 一 


同时 ,剔除 变量 Time, 保 留 离散 程度 更 小 的 Hour 变量 。 


>droplist=[ 'Time', "V8", 'V13", V15', "v20°, "V21', 'V22°, "V23", 'V24', 'V25', 'V26', 
"V27', "V28"'] 
>data new = data cr.drop(droplist, axis = 1) 
> data_new.shape 
Out: 
(284807, 19) 
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图 12-6 变量 之 间 的 相关 性 热力 图 


特征 从 31 个 缩减 至 18 个 (不 含 目标 变量 ) 。 
(6) 特征 缩放 。 由 于 特征 Hour 和 Amount 的 规格 和 其 他 特征 相差 较 大 ,因此 需 对 其 进 
行 特征 缩放 。 


# 特 征 缩放 hoursamount> col = ['Amount', 'Hour'] 
> from sklearn.preprocessing import StandardScaler 


>sc= StandardScaler() 
> data_new[ col] =sc.fit transform (data_new[ col] 
# 对 数据 进行 标准 化 , 见 表 12-4 


>data_new.head() 


表 12-4 标准 化 了 的 数据 表 






























































Tv v2 V3 Va Vi | va6 | Vr | Vis | vle | Amount |Class| Hour 
0|—1.3598|—0.0728| 2.5363 | 1.3782| … | 一 o.3112| 一 o.4704| 0.208 | 0.0258| 0.404 | 0.245 | 0 | 一 1.9603 
1| 1.1919| 0.2662| 0.1665 | 0.4482| … | 一 0. 1438| 0.4639| 一 0. 1148| 一 0. 1834| 一 0. 1458| 一 0. 3425| 0 | 一 1.9603 
2 | 一 1.3584| 一 1.3402| 1.7732 | 0.3798| … | 一 0.1659| 一 2.89o1| 1.11 | 一 0.1214| 一 2.2619| 1.1607| 0 | 一 1.9603 
3 | 一 0.9663| 一 0.1852| 1.793 | 一 0. 8633| … | 一 0. 2879| 一 1.0596| 一 0. 6841| 1.9658| 一 1.2326| 0.1405| 0 | 一 1.9603 
4|—1.1582| 0.8777| 1.5487 | 0.403 一 1.1197| 一 0. 4514| 一 0. 237 | 一 0. 0382| 0.8035| 一 0.0734| 0 |—1.9603 

经 对 表 12-4 观察 可 知 ,Amount 和 Hour 两 变量 已 经 过 标准 化 ,获得 整体 相对 平衡 的 
数据 。 


4) 对 特征 的 重要 性 进行 排序 


使 用 随机 森林 算法 对 经 筛选 后 的 特征 进行 重要 性 排序 ,相当 于 目标 变量 class 的 重要 程 





度 比 较 。 


# 构 建 x 变量 和 Y 变 量 
>x feature = list(data new.columns) 
>x feature.remove('Class') 
>x val = data new[ x feature] 
>y val = data new[ 'Class'] 
# 利 用 随机 森林 的 feature importance 对 特征 的 重要 性 进行 排序 
>clf.fit (x_val, y_val) # 对 自 变量 和 因 变 量 进行 拟 合 
>names, clf.feature importances 
> for feature in zip (names, clf.feature importances ): 
Print (feature) 
>plt.style.use('fivethirtyeight') 
>plt.rcParams[ 'figure.figsize'] = (12,6) 
Out: 
('V1', 0.016428960714380998) 
("V2', 0.012088954341890348) 
('V3', 0.019333047192017873) 
('V4', 0.041954380358988699) 
('V5', 0.018124180590092021) 
('V6', 0.021263258405632889) 
("VI', 0.02330647145553924) 
('V9', 0.022616308229698158) 
('V10', 0.08104934217396946) 
('V11', 0.06706027490232476) 
('V12', 0.13196226602546979) 
虽 ('V14', 0.12929955280214372) 
i ('V16', 0.14082738583269536) 
("V17', 0.211273164259213) 
('V18', 0.019528994094810771) 
('V19', 0.020030149135284989) 
('Amount', 0.011748452413655337) 
('Hour', 0.012104857072192587) 
>names = data cr[x feature] .Columns 
> from sklearn.ensemble import RandomForestClassifier 
>clf=RandomForestClassifier (n estimators=10,random state=123) 
# 构 建 随机 森林 分 类 器 
# 对 自 变量 和 因 变 量 进行 拟 合 


通过 输出 得 到 每 个 特征 变量 的 重要 性 评分 ,其 中 V17 在 所 有 变量 中 重要 性 评分 最 高 ， 
为 0.21。 


# 特 征 重要 性 可 视 化 


通过 对 特征 变量 的 重要 性 建立 柱状 图 ,如 图 12-7 所 示 , 更 加 明确 地 展示 每 个 特征 变量 
对 目标 变量 的 重要 性 。 


>importances = clf.feature importances 
>feat names = names 

>indices = np.argsort (importances)[ ::-1] 
>fig= plt.figure(figsize= (20,6)) 


大 数据 挖掘 应 用 案例 


>plt.title ("Feature importances by RandomTreeClassifier") 
>plt.bar (range (len (indices)), importances[ indices], color= 'lightblue',align= 'center') 
>Plt. step (range (len (indices)), np. cumsum (importances[ indices]), where= 'mid', label=" 
Cumulative') 

>plt.xticks (range (len (indices) ) ,feat_names[ indices], rotation= 'vertical', fontsize=14) 
>plt.xlim([-1, len(indices)]) 


Feature importances by RandomTreeClassifier 
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图 12-7 特征 变量 的 重要 性 柱状 图 
通过 图 12-7 可 以 看 出 ,各 变量 的 重要 性 关系 不 一 ,按照 降序 排列 为 V17、V16、V12、 


VI4、VIO、VI1ll .V4.V7.V9、V19.V18.、V3.V5.、V1.Hour、V2、.Amount。 


5. 模型 训练 
对 经 过 预 处 理 与 特征 选择 的 数据 采用 Logistics 回归 建立 模型 ,对 某 条 交易 记录 是 否 为 


欺诈 记录 进行 判断 。 利 用 原始 数据 进行 初步 建 模 ,并 得 到 模型 分 类 的 正确 率 。 


1) 处 理 样 本 不 平衡 
前 面 提 到 ,目标 列 Class 呈现 较 大 的 样本 不 平衡 ,会 对 模型 学 习 造 成 困扰 。 样 本 不 平衡 


常用 的 解决 方法 有 过 采样 和 欠 采 样 ,本 实例 处 理 样本 不 平衡 采用 的 是 过 采样 的 方法 ,具体 操 
作 使 用 SMOTE(Synthetic Minority Oversampling Technique) 。 


# 构 建 自 变量 和 因 变 量 
>X= data cr[x feature] 
>y= data cr[ "class"] 
>n_sample =y.shape[ 0] 
>n_ pos sample =WLy ==0].shape[ 0] 
>n_neg sample =¥WLy ==1].shape[ 0] 
>print (" 样 本 个 数 : {}; 正 样 本 占 {:.2%}; 负 样 本 占 {:.2%}"'.format (n_sample, 
n pos_ sample / n_samplev 
n neg sample / n_ sample)) 
>print ("特征 维 数 : ',X.shape[ 1]) 
> from imblearn.over sampling import SMOTE 
# 导 人 sMoTE 算 法 模块 处 理 不 平衡 数据 
> sm = SMOTE (random state= 42) 
# 处 理 采 样 的 方法 
>X, y= sm.fit sample(X, y) 
>Pprint(" 通 过 SMOTE 方 法 平衡 正 负 样本 后 ') 
>n_sample =y.shape[ 0] 


= 


>n pos sample =Wy ==0].shape[ 0] 
>n neg sample =WLy ==1].shape[ 0] 
>print (' 样 本 个 数 . {}; 正 样本 占 {:.2%}; 负 样 本 占 {:.2%}"'.format (n_ sample, 
n_pos_sample / n_sample, 
n_neg sample / n_sample)) 
Out: 
样本 个 数 : 284807; 正 样本 占 99.83s ; 负 样 本 占 0.17% 
特征 维 数 : 18 
通过 SMOTE 方法 平衡 正 负 样 本 后 ,样本 个 数 为 568630 , 正 样本 占 50.00%, 负 样本 占 
50.00% 。 
2) 建立 模型 预测 
对 经 过 预 处 理 与 特征 选择 的 数据 采用 Logistics 回归 建立 模型 ,对 某 条 交易 记录 是 否 为 
欺诈 记录 进行 判断 。 利 用 原始 数据 进行 初步 建 模 , 并 得 到 模型 分 类 的 正确 率 。 
> from sklearn.linear model import LogisticRegression 
>clfl = LogisticRegression() # 构 建 逻辑 回归 分 类 器 
>clfl1.fit (Xx, y) 
Out: 
LogisticRegression(C=1.0, class weight=None, dual=False, fit intercept= Truey 
intercept scaling=1, max iter=100, multi class='ovr', n jobs=1, 
Penalty= '12', random state=None, solver= "liblinear', tol=0.0001, 


Verbose=0, warm start=False) 

获得 模型 相关 参数 。 

>predictedl = clf.predict (Xx) # 通 过 分 类 器 产生 预测 结果 

>Print ("Test set accuracy score: {:.5f}".format (accuracy score (predicted1l，Y,))) 

Out: 

Test set accuracy score: 0.90153 

模型 正确 率 为 90%% 。 

由 于 在 本 次 过 程 中 的 模型 训练 和 测试 都 在 同一 个 数据 集 上 进行 ,这 样 导 致 模型 产生 过 
拟 合 的 问题 。 而 且 这 份 数据 是 全 部 打 标 好 的 数据 ,可 以 通过 交叉 验证 的 方法 对 训练 集 生成 
的 模型 进行 评估 。 

6. 模型 评估 与 优化 

上 一 个 步骤 中 ,模型 训练 和 测试 都 在 同一 个 数据 集 上 进行 ,这 样 导致 模型 产生 过 拟 合 的 
问题 。 这 份 数据 是 全 部 打 标 好 的 数据 ,可 以 通过 交叉 验证 的 方法 对 训练 集 生成 的 模型 进行 
评估 。 

一 般 来 说 ,将 数据 集 划分 为 训练 集 和 测试 集 有 3 种 处 理 方法 : 留 出 法 (hold-out) 、 交 叉 
验证 法 (cross-validation) 和 自助 法 (bootstrapping) 。 

本 项 目 采用 的 是 交叉 验证 法 划分 数据 集 , 将 数据 划分 为 3 部 分 : 训练 集 (training set)、 
验证 集 (validation set) 和 测试 集 (test set) 。 让 模型 在 训练 集 进行 学 习 , 在 验证 集 上 进行 参 
数 调 优 ,最 后 使 用 测试 集 数据 评估 模型 的 性 能 。 

模型 调 优 采用 网 格 搜索 调 优 参数 (grid search) ,通过 构建 参数 候选 集合 ,然后 网 格 搜索 
会 穷 举 各 种 参数 组 合 , 根 据 设 定 评分 机 制 找到 最 好 的 那 一 组 设置 。 





# 构 建 训练 集 和 测试 集 ,选择 70s 的 数据 进行 训练 ,30s 的 数据 进行 预测 和 评估 


>X train X test, y train, y test = train test split(X, y, test size= 0.3, random state = 
0) 
# randcm state = 0 每 次 切 分 的 数据 都 一 样 
# 构 建 参数 组 合 
>param grid = {'C': [0.01,0.1，1，10，100，1000,], "penalty': [ '11', '12"]} 
>grid search = GridSearchCV (LogisticRegression () ,Param grid, cv=10) 
确定 模型 LogisticRegression, 和 参数 组 合 param grid, 交 叉 验证 指定 为 10 折 
# 使 用 训练 集 学 习 算法 
>grid search.fit(X train, y train) 
Out: 
GridSearchCV (cv=10, error score= 'raise', 
estimator= LogisticRegression (C=1.0, class weight=None, dual= False, fit intercept 
=True, 
intercept scaling=1, max iter=100, multi class= "ovr', n jobs=1, 
Penalty= '12', random state=None, solver= 'liblinear', tol=0.0001, 
verbose=0, warm start=False), 
fit params=None, iid=True, n jobs=1, 
param grid={'C': [0.01, 0.1, 1, 10, 100, 1000], 'penalty': ['11', '12']}, 
Pre _dispatch= '2* n jobs', refit=True, return train score=True, 
scoring= None, verbose=0) 


得 到 grid search 进行 拟 合 后 的 参数 。 


>results = pd.DataFrame (grid search.cv_ results ) 
>best = np.argmax (results.mean test score.values) 
>print ("Best parameters: {}".format (grid search.best params )) 
>print ("Best cross- validation score: {:.5f}".format (grid search.best score )) 
Out: 
Best parameters: {'C': 1000, 'penalty': '11°'} 
Best cross- validation score: 0.95817 


通过 grid_search. best_params_ 和 grid_search. best_score_ 得 出 最 优 参数 和 最 优 交叉 验 


证 分 数 ,并 输出 展示 。 


>y_pred =grid search.predict (xX test) 
>print ("Test set accuracy score: {:.5f}".format (accuracy scorel(ly test, y pred,))) 
Out: 

Test set accuracy score: 0.95858 


经 过 优化 后 ,模型 的 正确 率 上 升 为 95%。 
>print (classification report(y test, y pred)) 
Out: 


precision recall fl-score support 


0 0.94 0.98 0.96 85172 
1 0.98 0.93 0.96 85417 


avg / total 0.96 0.96 0.96 170589 


以 上 输出 展示 了 对 0-1 变量 的 预测 值 、 召 回 值 .fl 评分 和 支持 数 , 及 其 各 数值 的 平均 数 
或 中 和 。 从 以 上 可 以 看 出 ,经 过 交叉 验证 训练 和 参数 调 优 后 ,模型 的 性 能 有 较 大 的 提升 。 
# 模 型 评估 


>y pred proba=grid search.predict proba (X_ test) 


#Ppredict prob 获得 一 个 概率 值 


>thresholds = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9] 
# 设 置 不 同 的 阅 值 
>j= 1 


>for i in thresholds: 
Yy_test predictions high recall=y pred proba[ :,1]>i 
plt.subplot (3,3,j) 
j+= 1 
cnf matrix= confusion matrix(y test,y test predictions high recall) 
np.set printoptions (precision=2) 
Print ("Recall metric in the testing dataset: ",cnf matrix[1,1]/(cnf matrix[1,0]+cnf_ 
matrix[1,1])) 
Out: 
Recall metric in the testing dataset: 0.982556165634 
Recall metric in the testing dataset: 0.967500614632 
Recall metric in the testing dataset: 0.952726038142 
Recall metric in the testing dataset: 0.942002177552 
Recall metric in the testing dataset: 0.932425629559 
Recall metric in the testing dataset: 0.926197361181 
Recall metric in the testing dataset: 0.919781776461 
Recall metric in the testing dataset: 0.911949611904 
Recall metric in the testing dataset: 0.899399416978 


设置 不 同 的 阔 值 ,并 输出 查看 不 同 国 值 下 的 召回 值 。 

precision 和 recall 是 一 组 矛盾 的 变量 。 从 上 面 混 消 矩阵 和 PRC 曲线 可 以 看 到 , 阅 值 越 
小 ,recall 值 越 大 ,模型 能 找 出 信用 卡 被 盗 刷 的 数量 也 就 更 多 ,但 换 来 的 代价 是 误 判 的 数量 
也 较 多 。 随 着 阔 值 的 提高 ,recall 值 逐 渐 降 低 ,precision 值 逐 渐 提 高 , 误 判 的 数量 也 随 之 减 
少 。 通 过 调整 模型 阔 值 ,控制 模型 反 信 用 卡其 诈 的 力度 。 若 想 找 出 更 多 的 信用 卡 被 盗 刷 , 设 
置 较 小 的 阔 值 ; 反之 , 则 设置 较 大 的 阔 值 。 

实际 业务 中 , 国 值 的 选择 取决 于 公司 业务 边际 利润 和 边际 成 本 的 比较 ; 当 模 型 阅 值 设 
置 较 小 的 值 , 确 实 能 找 出 更 多 的 信用 卡 被 盗 刷 的 持 卡 人 ,但 随 着 误 判 数量 增加 ,不 仅 加 大 了 
贷 后 团队 的 工作 量 ,也 会 降低 误 判 为 信用 卡 被 盗 刷 客户 的 消费 体验 ,从 而 导致 客户 满意 度 下 
降 , 如 果 某 个 模型 阔 值 能 让 业务 的 边际 利润 和 边际 成 本 达到 平衡 时 , 则 该 模型 的 阔 值 为 最 优 
值 。 当 然 也 有 例外 的 情况 ,发 生 金 融 危机 时 ,往往 伴随 着 贷款 违约 或 信用 卡 被 盗 刷 的 概率 的 
增 大 ,而 金融 机 构 会 更 愿意 不 惜 一 切 代价 守住 风险 的 底线 。 





125 临床 医学 大 数据 分 析 


12.5.1 医疗 行业 大 数据 应 用 
医疗 行业 是 让 大 数据 分 析 最 先 发 扬 光大 的 传统 行业 之 一 。 近 年 来 很 多 国家 都 在 积极 推 
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进 医疗 信息 化 发 展 。 麦 肯 锡 在 其 报告 中 指出 ,排除 体制 障碍 ,大 数据 分 析 可 以 帮助 美国 的 医 
疗 服务 业 一 年 创造 3000 亿美 元 的 附加 价值 。 医 疗 大 数据 涉及 了 医疗 服务 业 5 大 领域 ( 临 
床 业务 付款/ 定价、 研发 .新 的 商业 模式 公众 健康 ) 的 15 项 应 用 ,这 些 场景 下 ,大 数据 的 
分 析 和 应 用 都 将 发 挥 巨大 的 作用 。 同 时 ,大 数据 分 析 也 给 医疗 服务 行业 带 来 新 的 商业 
模式 。 

在 临床 医疗 方面 ,通过 全 面 分 析 病 人 的 特征 数据 和 疗效 数据 ,比较 研究 效果 ,然后 比较 
多 种 干预 措施 的 有 效 性 ,可 以 找到 针对 特定 病人 的 最 佳 治疗 途径 ; 通过 精准 医疗 分 析 病 人 
体征 数据 、 费 用 数据 和 疗效 数据 在 内 的 大 型 数据 集 ,可 以 帮助 医生 确定 临床 上 最 有 效 和 最 具 
有 成 本 效益 的 治疗 方法 ,这 将 有 可 能 减少 过 度 治疗 以 及 治疗 不 足 ; 开发 临床 决策 支持 系统 
可 以 提高 工作 效率 和 诊疗 质量 ,识别 医疗 影像 (X 光 .CT、MRI) 数 据 , 或 者 挖掘 医疗 文献 数 
据 建立 医疗 专家 数据 库 , 从 而 给 医生 提出 诊疗 建议 ; 提高 医疗 过 程 数据 的 透明 度 , 可 以 使 医 
疗 从 业者 、 医 疗 机 构 的 绩效 更 透明 ,间接 促进 医疗 服务 质量 的 提高 ; 进行 远程 病人 监控 ,从 
对 慢性 病人 的 远程 监控 系统 收集 数据 ,并 将 分 析 结 果 反馈 给 监控 设备 ,从 而 确定 今后 的 用 药 
和 治疗 方案 ; 对 病人 档案 的 先进 分 析 , 在 病人 档案 方面 应 用 高 级 分 析 可 以 确定 哪些 人 是 某 
类 疾病 的 易 感 人 群 。 帮 患者 从 已 经 存在 的 疾病 管理 方案 中 找到 最 好 的 治疗 方案 。 

在 付款 /定价 方面 ,通过 大 数据 分 析 可 以 更 好 地 对 医疗 服务 进行 定价 。 以 美国 为 例 , 这 
将 有 潜力 创造 每 年 500 亿美 元 的 价值 ,其 中 一 半 来 源 于 国家 医疗 开支 的 降低 ; 可 通过 自动 
化 系统 检测 欺诈 行为 ,在 支付 发 生前 就 识别 出 欺诈 ,避免 重大 的 损失 ; 基于 卫生 经 济 学 和 疗 
效 研究 的 定价 计划 ,有 利于 控制 医疗 保健 成 本 支出 。 

在 医学 研究 方面 ,医药 公司 在 新 药物 的 研发 阶段 ,可 以 通过 数据 建 模 和 分 析 , 确 定 最 有 
效率 的 投入 产 出 比 ,模型 基于 药物 临床 试验 阶段 之 前 的 数据 集 及 早期 临床 阶段 的 数据 集 , 尽 
可 能 及 时 地 预测 临床 结果 。 在 美国 ,研发 效率 的 提高 创造 出 每 年 超过 1000 亿美 元 的 价值 。 
分 析 临 床 试验 数据 和 病人 记录 可 以 确定 药品 更 多 的 适应 症 和 发 现 副 作用 ,基于 临床 试验 大 
数据 的 分 析 可 以 给 出 证 据 ,同时 对 大 型 数据 集 ( 如 基因 组 数据 ) 的 分 析 发 展 个 性 化 治疗 。 考 
察 遗传 变 异 、 对 特定 疾病 的 易 感性 和 对 特殊 药物 的 反应 的 关系 ,然后 在 药物 研发 和 用 药 过 程 
中 考虑 个 人 的 遗传 变异 因素 。 通 过 分 析 疾 病 的 模式 和 趋势 ,可 以 帮助 医疗 产品 企业 制定 战 
略 性 的 研发 投资 决策 ,帮助 其 优化 研发 重点 ,优化 配备 资源 。 

在 公众 健康 方面 ,大 数据 的 使 用 可 以 改善 公众 健康 监控 。 公 共 卫 生 部 门 可 以 通过 覆盖 
全 国 的 患者 电子 病历 数据 库 ,快速 检测 传染 病 ,进行 全 面 的 疫情 监测 ,并 通过 集成 疾病 监测 
和 响应 程序 ,快速 进行 响应 ; 从 而 使 医疗 索赔 支出 减少 \ 传 染病 感染 率 降低 ,卫生 部 门 可 以 
更 快 地 检测 出 新 的 传染 病 和 疫情 。 通 过 提供 准确 和 及 时 的 公众 健康 咨询 ,将 会 大 幅 提高 公 
众 健康 风险 意识 ,同时 也 降低 传染 病 感染 风险 。 


12.5.2 医疗 行业 大 数据 应 用 案例 


案例 12-14 利用 大 数据 进行 肿瘤 基因 检测 服务 

伴随 着 生物 技术 、 大 数据 技术 的 发 展 ,个 体 基因 检测 治疗 疾病 已 经 成 为 现实 。 其 中 ,最 
广为人知 的 是 美国 好 莱 坞 女 星 安吉 丽 娜 。 朱 莉 , 在 2013 年 经 检测 她 发 现 自身 携带 致癌 基 
因 一 一 BRCA1 基因 ,为 防止 患 上 卵巢 癌 , 于 2015 年 切除 了 卵巢 和 输卵管 。 目 前 ,国内 外 已 
经 有 多 家 基因 检测 机 构 ,如 我 国 的 华 大 基因 、 贝 瑞 和 康 、 美 国 的 23andMe、lllumina 公司 等 。 








2007 年 成 立 的 美国 23andMe 公司 是 最 早 的 基因 测序 互联 网 公司 ,由 谷歌 投资 。 体 检 者 在 
试管 里 吐 一 口 唾沫 , 盖 上 盖子 , 寄 往 23andMe。 两 周 后 会 收 到 邮件 提示 ,你 的 基因 检测 结果 
已 经 准备 好 。 用 户 登录 , 便 可 看 到 自己 基因 组 上 超过 100 万 个 位 点 的 基因 信息 和 所 做 的 分 
析 , 包 括 对 259 种 疾病 患 病 率 的 风险 预测 .祖先 血统 分 析 和 药物 的 反应 预测 等 。 华 大 基因 一 
直 致 力 于 肿瘤 基因 组 学 研究 ,已 经 研究 20 多 类 癌症 。 推 出 了 自主 研究 的 肿瘤 基因 检测 服 
务 , 采 用 了 高 通 量 测序 方法 对 来 自 肿瘤 病 人 的 癌 组 织 进行 相关 基因 分 析 , 对 肺癌 、 乳 腺 癌 、 胃 
癌 等 多 种 常见 高 发 癌症 进行 早期 .无 创伤 检测 。 

首先 采集 患者 样本 ,通过 测序 得 到 基因 序列 ,接着 采用 大 数据 技术 与 原始 基因 比 对 , 锁 
定 突 变 基因 ,通过 分 析 做 出 正确 的 诊断 ,进而 全 面 、 系 统 ,准确 地 解读 肿瘤 药物 与 突变 基因 的 
关系 ,同时 根据 患者 的 个 体 差 异性 ,辅助 医生 选择 合适 的 治疗 药物 ,制定 个 体 化 的 治疗 方案 ， 
实现 “ 同 病 异 治 " 或 “ 异 病 同治 ”, 从 而 延长 患者 的 生存 时 间 。 

肿瘤 医院 的 病人 中 有 60% 一 80% 刚 到 医院 时 就 已 经 进入 中 晚期 ,大 数据 分 析 可 用 于 癌 
症 诊断 和 预测 ,早期 的 筛 查 帮 助 患者 有 针对 性 地 改善 生活 习惯 或 者 采取 个 体 化 的 辅助 治疗 ， 
有 益 于 身体 健康 ,助力 个 性 化 医疗 。 结 合生 物 大 数据 ,挖掘 疾病 分 子 机 制 最 终 可 以 做 到 更 好 
的 筛 查 , 更 好 的 临床 指导 以 及 更 好 用 药 的 过 程 。 新 一 代 基因 测序 技术 与 大 数据 ` 云 计算 共同 
发 力 , 将 使 大 众 * 治 未 病 ? 成 为 可 能 ,一 个 庞大 的 基因 测序 市 场 即 将 形成 。 

案例 12-15 大 数据 助力 公共 卫生 检测 

2009 年 ,Google 比美 国 疾病 控制 与 预防 中 心 提 前 1 一 2 周 预测 到 了 甲 型 HIN1 流感 爆 
发 ,此 事件 震惊 了 医学 界 和 计算 机 领域 的 科学 家 ,Google 的 研究 报告 发 表 在 Nature 杂志 
上 。Google 正 是 借助 大 数据 技术 从 用 户 的 相关 搜索 中 预测 到 流感 爆发 。 流 感应 用 程序 Flu 
Near You、Germ Tracker、Flu Trends 和 Flu View 在 美国 的 疫情 监控 中 都 展示 了 各 自 不 凡 
的 能 力 。Flu Near You 借助 用 户 周期 提交 的 自我 流感 检测 来 预测 流感 的 爆发 。Flu Near 
You 收集 信息 并 利用 大 数据 技术 生成 目前 流感 疾病 和 未 来 流感 疾病 预测 的 可 视 化 图 表 。 
Germ Tracker 是 另 一 个 信息 收集 网 站 ,可 以 通过 地 图 追踪 流感 病毒 的 扩散 。Flu Trends 是 
一 款 来 自 谷 歌 的 流感 追踪 器 。 它 可 以 监控 相关 的 流感 搜索 字样 ,进而 展示 出 在 美国 不 同 州 
的 流感 活动 。 国 内 百度 公司 也 上 线 了 ”百度 疾病 预测 ”借助 用 户 搜索 预测 疾病 暴发 。 借 助 大 
数据 预测 流感 爆发 分 为 主动 收集 和 被 动 收集 ,被 动 收 集 利 用 用 户 周期 提交 的 数据 分 析 流 感 
的 当前 状况 和 趋势 ,而 主动 收集 则 是 利用 用 户 在 微 博 的 推 文 .搜索 引擎 的 记录 进行 分 析 
预测 。 

案例 12-16 ”助力 治疗 预测 与 降低 医疗 成 本 

目前 ,医疗 健康 行业 成 本 高 昂 的 部 分 原因 来 自 医 疗 失误 和 医疗 浪费 。 根 据 1998 年 美国 
医疗 协会 的 报告 ,仅仅 在 美国 ,可 以 避免 的 医疗 失误 每 年 造成 了 98000 起 死亡 案例 。 美 国花 
在 医疗 健康 上 的 费用 超过 1700 亿美 元 ,而 中 国 每 年 花费 在 医疗 健康 上 的 费用 超过 30000 亿 
元 。 在 此 背景 下 ,多 国 通过 改革 医疗 系统 以 减少 医疗 失误 及 医疗 浪费 ,最 终 削 减 医疗 开支 。 
使 用 目前 的 验证 技术 无 法 有 效 发 现 医疗 服务 中 存在 的 欺诈 、 滥 用、 浪费 .错误 等 现象 ,原因 在 
于 旧 的 验证 技术 只 关注 单个 病例 ,无 法 利用 多 个 病例 间 的 联系 。 建 立 关 于 治疗 费用 、 住 院 时 
间 等 数据 的 预测 数据 模型 ,使 用 大 数据 挖掘 技术 发 现 账单 中 的 异常 数据 ,使 用 领域 专家 建立 
的 规则 库 分 析 异 常 账单 ,发 现 其 中 可 能 存在 的 问题 并 给 出 上 警告。 典型 的 应 用 环境 包括 医疗 
器 材 滥用 、 手 术 过 程 与 病情 诊断 不 符 、 过 度 收费 等 。 
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案例 12-17 用 大 数据 " 魔 牧 "改善 健康 

“ 魔 毯 ” 的 项 目 原型 是 使 用 家 中 地 黎 内 装 的 传感器 感应 缺乏 人 照料 的 老人 下 床 和 行走 的 
速度 和 压力 ,一 旦 这 些 数 据 发 生 异 常 , 则 对 老人 的 亲人 发 送 一 个 警报 .“ 魔 毯 "的 成 功 和 市 场 
上 的 特 立 独行 正 是 来 源 于 对 自身 产品 和 消费 者 的 数据 挖掘 。 设 计 人 员 调 研发 现 ,在 社区 居 
住 的 老人 每 年 多 达 30% 一 40%% 会 发 生 摔 倒 事故 ,超过 65 岁 的 住院 老人 中 ,超过 一 半 是 因为 
摔 倒 。 因 此 ,设计 人 员 运 用 大 数据 设计 了 * 魔 毯 "。“ 魔 毯 ? 是 在 地 毯 下 面 铺 上 光学 元 件 , 当 人 
踩 上 去 时 ,光学 元 件 会 弯曲 发 出 信号 ,在 地 毯 边缘 的 微型 电子 元 件 接收 信号 ,并 传递 给 计算 
机 。 计 算 机 会 分 析 收 到 的 数据 ,显示 出 足迹 的 图 像 , 并 识别 渐变 的 步子 或 者 是 滑 倒 、 绊 倒 等 
突 发 情况 .。“ 魔 毯 "全 方位 地 收集 人 们 的 信息 ,通过 整体 传 感 得 到 的 信息 ,会 为 病人 制造 一 个 
最 适宜 的 生活 环境 。 


12.5.3 威斯康星 乳腺 癌 数 据 分 析 实 例 


定期 的 乳腺 癌 检 查 使 得 疾病 在 引起 明显 的 症状 之 前 就 得 到 诊断 与 治疗 。 早 期 的 检测 过 
程 包括 检查 乳腺 组 织 的 异常 肿块 。 如 果 发 现 一 个 肿块 ,那么 就 需要 进行 细 针 抽 吸 活检 , 即 利 
用 一 根 空心 针 从 肿块 中 提取 细胞 的 一 个 小 样品 ,然后 临床 医生 在 显微镜 下 检查 细胞 ,从 而 确 
定 肿块 可 能 是 恶性 的 还 是 良性 的 。 

如 果 机 器 学 习 能 够 自动 识别 癌 细 胞 ,那么 它 将 为 医疗 系统 提供 相当 大 的 益处 。 自 动 化 
的 过 程 能 提高 检测 过 程 的 效率 ,从 而 可 以 让 医生 在 诊断 上 花 更 少 的 时 间 , 而 在 治疗 疾病 上 花 
更 多 的 时 间 。 自 动 化 筛 查 系统 还 可 能 通过 去 除 该 过 程 中 的 内 在 主观 人 为 因素 来 提供 更 高 的 
检测 准确 性 。 

从 带 有 异常 乳腺 肿块 的 女性 身上 的 活检 细胞 的 测量 数据 入 手 , 应 用 KNN 算法 ,从 而 研 
究 机 器 学 习 用 于 检测 癌症 的 功效 。 

1. 收集 数据 

本 实例 使 用 来 自 UCI 机 器 学 习 数据 仓库 (UCI Machine Learning Repository) 的 威 斯 康 
星 乳 腺 癌 诊 断 数 据 集 (Wisconsin Breast Cancer Diagnostic Dataset) , 该 数据 可 以 从 网 站 
http://archive. ics. uci. edu/ml 获得 。 该 数据 是 由 威斯康星 大 学 的 研究 者 捐赠 的 ,包括 乳 
房 肿块 细 针 抽 吸 活检 图 像 的 数字 化 的 多 项 测量 值 ,这 些 值 代表 出 现在 数字 化 图 像 中 的 细胞 
核 的 特征 。 

想 要 阅读 更 多 关于 该 数据 集 的 信息 ,可 参考 Mangasarian OL，Street WN，Wolberg WH. 
Breast Cancer Diagnosis And Prognosis Via Linear Programming. Operations Research. 
1995; 43:570-577。 

乳腺 癌 数 据 包括 569 例 细 胞 活检 案例 ,每 个 案例 有 32 个 特征 。 其 中 ,有 一 个 特征 是 识 
别 号 码 , 一 个 特征 是 癌症 诊断 结果 ,其 他 30 个 特征 是 数值 型 的 实验 室 测 量 结 果 。 癌 症 诊断 
结果 用 编码 M 表示 恶性 ,用 编码 B 表示 良性 。 

其 他 30 个 数值 型 测量 结果 由 数字 化 细胞 核 的 10 个 不 同 特征 的 均值 标准 差 和 最 差 值 
( 即 最 大 值 ) 构 成 。 表 12-5 是 该 数据 集 的 11 个 属性 名 称 及 说 明 。 


表 12-5 数据 集 11 个 属性 名 称 及 说 明 
属性 名 称 说 明 特征 编号 






































挖掘 
样品 编号 病人 身份 证 号 码 无 
块 厚度 范围 1 一 10 1 
细胞 大 小 均匀 性 范围 1~10 2 
细胞 形态 均匀 性 范围 1~10 3 
边缘 粘 附 力 范围 1~10 4 
单 上 皮 细 胞 尺寸 范围 1~10 5 
裸 核 范围 1~10 6 
Bland 染色 质 范围 1 一 10 7 
正常 核 仁 范围 1 一 10 8 
核 分 裂 范围 1~10 9 
分 类 分 类 属性 : 2 为 良性 ,4 为 恶性 10 











根据 这 些 名 字 , 所 有 特征 似乎 都 与 细胞 核 的 形状 和 大 小 有 关 。 除 非 用 户 是 一 个 癌症 医 
师 ,否则 不 大 可 能 知道 每 个 特征 如 何 与 良性 或 者 恶性 肿块 联系 在 一 起 。 在 继续 机 器 学 习 的 
过 程 中 ,这 些 模 式 将 会 被 揭示 。 

2. 探索 和 准备 数据 

1) 查看 数据 

为 了 能 让 数据 之 间 的 关系 明朗 化 一 些 , 需 要 准备 使 用 KNN 学 习 算法 所 要 用 到 的 数据 。 

从 Packt 网 站 下 载 wisc_bc_data. csv 文件 ,并 将 其 保存 到 R 工作 目录 中 。 本 书 对 该 数 
据 集 原来 的 形式 做 了 非常 轻 微 的 修改 。 具 体 地 讲 ,增加 了 一 个 标题 行 ,对 行 数据 进行 了 随机 
排序 。 

与 先前 流程 一 样 ,将 威斯康星 乳腺 癌 数 据 的 CSV 数据 文件 保存 到 数据 框 wbcd 中 。 

wbcd< -read.csv("wisc bc data.csv",stringsAsFactors=FALSE) 

使 用 strCwbcd) 命 令 确 认 数据 是 由 569 个 案例 和 32 个 特征 构成 的 。 前 几 行 的 输出 结果 
如 下 : 


'data.frame': 569 obs. of 32 variables: 


$ id : int 87139402 8910251 905520 868871 9012568 906539 925291 87880 862989 
89827 ... 

$ diagnosis :chr "B" "B" "B" "B" ... 

$ radius mean : num 12.310.61111.315.2... 

$ texture mean : num 12.4 18.9 16.8 13.4 13.2 .…- 

$ perimeter mean :num 78.8 69.3 70.9 73 97.7 .… 

$ area mean :num 464 346 373 385 712 ... 

$ smoothness mean :num 0.1028 0.0969 0.1077 0.1164 0.0796 .… 

$ compactness mean : num 0.0698 0.1147 0.078 0.1136 0.0693 ... 

$ concavity mean :num 0.0399 0.0639 0.0305 0.0464 0.0339 ... 


第 一 个 变量 是 一 个 名 为 id 的 整 型 变量 。 由 于 这 仅仅 是 每 个 病人 在 数据 中 唯一 的 标识 
符 (ID) , 它 并 不 能 提供 有 用 的 信息 ,所 以 需要 把 它 从 模型 中 剔除 。 

不 管 是 什么 机 器 学 习 方法 ,ID 变量 总 是 要 被 剔除 的 ,不 这 样 做 会 导致 错误 的 结果 ,因为 
ID 可 以 用 来 独一无二 地 “预测 ”每 一 个 案例 。 因 此 ,包括 标识 符 的 模型 将 受到 过 度 拟 合 的 影 
响 ,并 且 不 容易 推广 到 其 他 数据 。 
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使 用 strCwbcd) 命 令 确 认 数据 是 由 569 个 案例 和 32 个 特征 构成 的 。 前 几 行 的 输出 结果 
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第 一 个 变量 是 一 个 名 为 id 的 整 型 变量 。 由 于 这 仅仅 是 每 个 病人 在 数据 中 唯一 的 标识 
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首先 将 id 特征 完全 剔除 。 巾 于 它 位 于 第 一 列 , 所 以 可 以 通过 复制 一 个 不 包括 列 1 的 
wbcd 数据 框 来 剔除 它 。 

> wbcd< - wbcd[-1] 

接 下 来 的 变量 是 diagnosis ,代表 希望 预测 的 结果 。 这 个 特征 表示 案例 是 来 自 于 良性 肿 
块 还 是 恶性 肿块 。 用 函数 table() 可 知 ,357 个 肿块 是 良性 的 ,而 212 个 肿块 是 恶性 的 ( 见 
表 12-6) 。 

表 12-6 ”肿块 分 类 
B M 








357 212 








许多 R 机 器 学 习 分 类 器 要 求 将 目标 属性 编码 为 因子 类 型 ,所 以 需要 重新 编码 diagnosis 
变量 。 同 时 ,也 要 用 labels 参数 对 B 值 和 M 值 给 出 含有 更 多 信息 的 标签 。 


> wbcd$ diagnosis <- factor (wbcd$ diagnosis,levels = c("B","M"),labels= 
c("Benign", "Malignant")) 


现在 ,观察 函数 prop. table() 的 输出 结果 ,可 以 看 到 输出 值 被 标记 为 Benign 和 
Malignant, 分 别 有 62.7% 的 良性 肿块 和 37.3% 的 恶性 肿块 ( 见 表 12-7) 。 
表 12-7 和 良性 肿块 ,恶性 肿块 所 占 比例 


Benign Malignant 
62.7 37.3 


2) 数据 处 理 
(1) 转换 min-max 标准 化 数值 数据 。 
作为 示例 ,用 summary() 函 数 详细 地 观察 3 个 特征 。 





> summary (wbcd[ c ("radius mean", "area mean", "smoothness mean")]) 
radius mean area mean smoothness_mean 
Min. :6.981 Min. :143.5 Min. :0.05263 
lst Qu.:11.700 1lst Qu.: 420.3 lst Qu.:0.08637 
Median :13.370 Median : 551.1 Median :0.09587 
Mean :14.127 Mean :654.9 Mean :0.09636 
3rd Qu.:15.780 3rd Qu.: 782.7 3rd Qu.:0.10530 
Max. :28.110 Max. :2501.0 Max. :0.16340 


KNN 的 距离 计算 在 很 大 程度 上 依赖 于 输入 特征 的 测量 尺度 。 由 于 光滑 度 的 范围 是 
0.05 一 0. 16 , 且 面 积 的 范围 是 143. 5 一 2501. 0, 所 以 在 距离 计算 中 ,面积 的 影响 比 光滑 度 的 
影响 大 很 多 ,这 可 能 潜在 地 导致 分 类 器 出 现 问题 ,需要 应 用 min-max 标准 化 方法 将 特征 值 
重新 调整 到 一 个 标准 范围 内 。 为 使 每 个 特征 对 距离 公式 的 贡献 相对 平均 ,可 以 将 这 些 特 征 
进行 min-max 标准 化 。 

将 这 些 特征 进行 min-max 标准 化 时 ,需要 在 R 中 创建 一 个 normalize() 函 数 , 该 函数 接 
受 一 个 数值 向 量 z 作为 输入 参数 ,并 且 对 于 z 中 的 每 一 个 值 , 减 去 zx 中 的 最 小 值 再 除 以 x 





的 极 差 。 最 后 ,返回 结果 向 量 。 公 式 为 
工 一 min(CZ) 
max(Czr) 一 min(Z) 


运行 上 面 的 代码 后 ,函数 normalize() 可 以 在 R 中 使 用 了 。 事 实 上 ,尽管 第 二 个 向 量 中 
的 值 是 第 一 个 向 量 中 的 值 的 10 倍 ,但 是 在 min-max 标准 化 后 ,这 两 个 向 量 返 回 的 结果 是 完 
全 一 样 的 。 

现在 ,可 以 将 normalize() 函 数 应 用 于 数据 框 中 的 数值 特征 。 并 不 需要 对 这 30 个 数值 
变量 逐个 进行 min-max 标准 化 ,可 以 使 用 R 中 的 一 个 函数 来 自动 完成 此 过 程 。 


> normalize< - function (x) {return((x-min(x))/ (max (x)-min(x))) } 


lapply( 〇 函数 接受 一 个 列表 作为 输入 参数 ,然后 把 一 个 具体 函数 应 用 到 每 一 个 列表 元 
素 。 因 为 数据 框 是 一 个 含有 等 长 度 向 量 的 列表 ,所 以 可 以 使 用 lapplyO 〇 函数 将 normalize() 
函数 应 用 到 数据 框 中 的 每 一 个 特征 。 最 后 一 个 步骤 是 ,应 用 函数 as. data. frame() 把 lapply() 
返回 的 列表 转换 成 一 个 数据 框 。 


> wbcd n< -as.data.frame (lapply (wbcd[ 2:31],normalize)) 


该 命令 把 normalize() 函 数 应 用 到 数据 框 wbcd 的 第 2 一 31 列 , 把 产生 的 结果 列表 转换 
成 一 个 数据 框 ,并 给 该 数据 框 赋予 名 称 wbcd_n。 其 中 ,后 级 _n 是 一 个 提示 , 即 wbcd 中 的 值 
已 经 被 min-max 标准 化 了 。 

为 了 确认 转换 是 否 正确 应 用 ,可 以 看 到 其 中 一 个 变量 的 汇总 统计 量 。 

> summary (wbcd n$ radius mean) 

Min. lst Qu. Median Mean 3rd Qu. Max. 

0.0000 0.2233 0.3024 0.3382 0.4164 1.0000 

正如 预期 的 那样 ,area_mean 变量 的 原始 范围 是 143. 5 一 2501. 0 ,而 现在 的 范围 是 0 一 1。 

(2) Relief 算法 。 

Relief 为 一 系列 算法 ,包括 最 早 提出 的 Relief 和 后 来 拓展 的 ReliefF 和 RReliefF。 其 
中 ,RReliefF 算法 是 针对 目标 属性 为 连续 值 的 回归 问题 提出 的 ,下 面 仅 介绍 一 下 针对 分 类 
问题 的 Relief 和 ReliefF 算法 。 

Relief 算法 最 早 由 Kira 提出 ,最 初 局 限于 两 类 数据 的 分 类 问题 。Relief 算法 是 一 种 特 
征 权 重 算法 (Feature Weighting Algorithms) ,根据 各 个 特征 和 类 别 的 相关 性 赋予 特征 不 同 
的 权重 ,权重 小 于 某 个 阔 值 的 特征 将 被 移 除 。Relief 算法 中 特征 和 类 别 的 相关 性 是 基于 特 
征 对 近 距 离 样本 的 区 分 能 力 。 算 法 从 训练 集 DD 中 随机 选择 一 个 样本 尺 , 然 后 从 和 尺 同类 的 
样本 中 寻找 最 近邻 样本 互 , 称 为 Near Hit; 从 和 尺 不 同类 的 样本 中 寻找 最 近邻 样本 M , 称 
为 NearMiss ,然后 根据 以 下 规则 更 新 每 个 特征 的 权重 。 

车 RR 和 Near Hit 在 某 个 特征 上 的 距离 小 于 尺 和 Near Miss 上 的 距离 ,说 明 该 特征 对 
区 分 同类 和 不 同类 的 最 近邻 是 有 益 的 , 则 增加 该 特征 的 权重 ; 反之 ,车 RR 和 Near Hit 在 某 
个 特征 的 距离 大 于 R 和 Near Miss 上 的 距离 ,说 明 该 特征 对 区 分 同类 和 不 同类 的 最 近邻 起 
负面 作用 , 则 降低 该 特征 的 权重 。 以 上 过 程 重 复 mm 次 ,最 后 得 到 各 特征 的 平均 权重 。 特 征 
的 权重 越 大 ,表示 该 特征 的 分 类 能 力 越 强 ; 反之 ,表示 该 特征 分 类 能 力 越 弱 。Relief 算法 的 
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运行 时 间 随 着 样本 的 抽样 次 数 m 和 原始 特征 个 数 N 的 增加 线性 增加 ,因而 运行 效率 非常 
高 。 具 体 算法 如 下 。 

由 于 Relief 算法 比较 简单 ,但 运行 效率 高 ,并 且 结 果 也 比较 令 人 满意 ,因此 得 到 广泛 应 
用 ,但 是 其 局 限 性 在 于 只 能 处 理 两 类 别 数据 ,因此 1994 年 Kononeill 对 其 进行 了 扩展 ,发 明 
了 ReliefF 算法 ,可 以 处 理 多 类 别 问 题 。 该 算法 用 于 处 理 目标 属性 为 连续 值 的 回归 问题 。 
ReliefF 算法 在 处 理 多 类 问题 时 ,每 次 从 训练 样本 集中 随机 取出 一 个 样本 尺 ,然后 从 和 尺 同 
类 的 样本 集中 找 出 R 的 & 个 近邻 样本 (Near Hizs), 从 每 个 R 的 不 同类 的 样本 集中 均 找 出 
k 个 近邻 样本 (Near Misses) ,然后 更 新 每 个 特征 的 权重 ,如 下 式 所 示 。 


k 
W(A) =W(A) — Ddiff (A,R,H;)/ Gnk) 
d= 





| pO) es 
| Zi poe (ARM CC) ]/ mk) 
在 上 式 中 ,diff(A,Ri,R;:) 表 示 样 本 R 和 样本 R; 在 特征 A 上 的 差 ,M;(C) 表 示 类 C 
中 的 第 j 个 最 近邻 样本 。dif 了 (A ,Ri,R,) 如 下 式 所 示 。 


| RILA]— R:[LA]| 
max(A) 一 min(A) 


0 if Aisdiscreteand RiLA]=R:[A] 
1 if Aisdiscrete and Ri[A]3A RLA] 

ReliefF 算法 具体 的 伪 代 码 如 下 所 示 。 

设 训练 数据 集 为 D, 样 本 抽样 次 数 为 m, 特 征 权 值 的 国 值 为 6, 最 近邻 样本 个 数 为 k, 输 
出 为 各 个 特征 的 特征 权重 T。 

@ 置 所 有 特征 权重 为 0,T 为 空 集 。 

©@ fori=1tomdo 

a. 从 D 中 随机 选择 一 个 样本 R。 

b. 从 只 的 同类 样本 中 找到 R 的 kx 个 最 近邻 二 (j= 1,2,…,k), 从 每 一 个 不 同类 样本 集中 找到 k 个 最 邻 


近 值 M (c)。 
图 for A= 1 to NAll feature do 


if Ais continuous 


diff (A,Ri.,R;:) = 


WA) = WA)— Ddiff ARE)/ (mk) 
Ea 


+ 5 [i me)]/ an 


cdeml 1- P(Class(R)) $1 

end 

Relief 系列 算法 运行 效率 高 ,对 数据 类 型 没有 限制 ,属于 一 种 特征 权重 算法 ,算法 会 赋 
予 所 有 和 类 别 相关 性 高 的 特征 较 高 的 权重 ,但 不 能 有 效 地 去 除 元 余 特 征 。 

在 转换 数据 后 .首先 进行 了 预 处 理 , 由 于 数据 范围 都 是 1 一 10, 因 此 不 需要 归 一 化 。 但 
是 数据 样本 中 存在 一 些 不 完整 ,会 影响 实际 的 程序 运行 ,经 过 程序 处 理 , 将 这 一 部 分 数据 删 
除 。 这 些 不 完整 的 数据 都 是 由 于 实际 中 一 些 原因 没有 登记 或 者 遗失 的 ,以 “?” 的 形式 代表 。 

采用 Matlab 软件 进行 编程 计算 。 根 据 ReliefF 算法 过 程 , 先 编写 ReliefF 函数 程序 ,用 
于 计算 特征 属性 ,再 编写 主 程序 ,在 主 程序 中 调用 该 函数 进行 计算 ,并 对 结果 进行 分 析 , 绘 
图 ,得 到 有 用 的 结论 。 





采用 ReliefF 算法 计算 各 个 特征 的 权重 ,权重 小 于 某 个 阔 值 的 特征 将 被 移 除 , 针 对 本 文 
的 实际 情况 ,将 权重 最 小 的 2 或 3 种 剔除 。 由 于 算法 在 运行 过 程 中 会 选择 随机 样本 R, 随 机 
数 的 不 同 将 导致 结果 权重 有 一 定 的 出 入 ,因此 本 文采 取 平 均 的 方法 将 主 程序 运行 20 次 , 然 
后 将 结果 汇总 求 出 每 种 权重 的 平均 值 。 图 12-8 所 示 是 特征 提取 算法 计算 的 特征 权重 趋势 
图 ,计算 20 次 的 结果 趋势 相同 。 



















































































lt 2 3 4 5 B 7 Wl 3 

1| 0.2207| 0.1406| 0.1434| 0.1120| 0.08644| 0.2123| 0.1183| 0. 1944| 0.0375 
2| 0.2311| 0.1488| 0.1703| 0.1470| 0.0701| 0.2491| 0. 1049| 0.1724| 0.0383 
3| 0.2111| 0.1535| 0.1568| 0.1285| 0.0755| 0.2604| 0.1243| 0.2012| 0.0693 
4| 0.2099| 0.1865| 0.1847| 0.1694| 0.0771| 0.2337| 0. 1306| 0. 2219| 0. 0674 
可 0.2436| 0.1554| 0.1689| 0.1424| 0.0628| 0.2391| 0.1309| 0.2054| 0.0479 
6| 0.2155| 0.1460| 0.1641| 0.1220| 0.0762| 0.2366| 0.1422| 0.1936| 0.0609 
了 | 0.2436| 0.1439| 0.1759| 0.1722| 0.0752| 0.2351| 0. 1351| 0. 2005| 0.0431 
8| 0.2089| 0.1443| 0.1599| 0.1571| 0.0785| 0.2399| 0.1125| 0. 1759| 0.0545 
a| 0.2273| 0.1483| 0.1615| 0.1523| 0.0674| 0.2615| 0.1399| 0.2108| 0.0394 
10| 0.2295| ”0.1314| 0.1641| 0.1439| 0.0724| 0.2517| 0. 1439| 0. 2068| 0. 0554 
11| 0.2120| 0.1450| 0.1240| 0.1328| 0.0703| 0.2356| 0.1234| 0. 1995| 0.0535 
12| 0.2516| 0.1385| 0.1693| 0.1484| 0.0672| 0.2580| 0.1314| 0.2062| 0.0470 
13| 0.2507| 0.1552| 0.1642| 0.1597| 0.0785| 0.2422| 0.1224| 0. 1913| 0.0347 
14| 0.2219| 0.1615| 0.1616| 0.1293| 0.0812| 0.2361| 0.1035| 0.1870| 0.0530 
15| 0.2075| 0.1474| 0.1490| 0.1222| 0.0738| 0.2524| 0.1299| 0. 1946| 0.0319 
16| 0.2038| 0.1462| ”0.1538| 0.1510| 0.0604| 0.2200| 0.1335| 0. 2172| 0.0564 
17| 0.2302| ”0.1786| 0.1707| 0.1366| 0.0757| 0.2405| 0. 1280| 0. 2172| 0.0679 
18| 0.2226| 0.1097| 0.1139| 0.1205| 0.0879| 0.2401| 0.1035| 0.1616| 0.0359 
19| 0.2083| 0.1509| 0.1701| 0.1318| 0.,0870| 0.2380| 0.1210| 0. 2123| 0.0467 
20| 0.2245| 0.1559| 0.1507| 0.1373| 0.0821| 0.2330| 0.1083| 0.1884| 0.0668 














图 12-8 特征 权重 趋势 图 
上 述 结果 是 否 运 行 主 程序 所 得 的 计算 结果 看 起 来 并 不 直观 ,下 面 将 其 按照 顺序 绘图 ,可 
以 直观 显示 各 个 属性 权重 的 大 小 分 布 ,如 图 12-9 所 示 。 
ReliefF 算 法 计算 乳腺 癌 数 据 的 特征 权重 





特征 权重 














属性 编号 
图 12-9 乳腺 癌 数 据 特征 权重 


将 表 12-8 中 的 数据 按照 从 小 到 大 的 顺序 排列 ,可 知 各 个 属性 的 权重 关系 为 
属性 9 二 属性 5 二 属性 7 过 属 性 4 二 属性 2 二 属性 3 二 属性 8 二 属性 1 过 属性 6 


表 12-8 特征 属性 权重 均值 




















属性 1 0. 2237 属性 6 0. 2408 
属性 2 0. 1494 属性 7 0.1243 
属性 3 0.1588 属性 8 0.1979 
属性 4 0. 1408 属性 9 0. 0503 
属性 5 0.0732 














选 定 权 重 阅 值 为 0. 02, 则 属性 9、 属性 4 和 属性 5 剔除 。 属 性 6 裸 核 大 小 是 最 主要 的 影 
响 因素 ,说 明 乳腺 癌 患 者 的 症状 最 先 表现 了 裸 核 大 小 上 ,将 直接 导致 裸 核 大 小 的 变化 。 其 次 
是 属性 1 和 属性 8 等 。 后 几 个 属性 权重 大 小 接近 ,但 是 从 多 次 计算 规律 来 看 ,还 是 能 够 说 明 
其 中 不 同 的 重要 程度 , 下 面 着 重 对 几 个 重要 的 属性 进行 分 析 。 
图 12-10 所 示 为 20 次 测试 中 裸 核 大 小 (属性 6) 的 权重 变化 。 
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图 12-10 裸 核 大 小 (属性 6) 的 权重 变化 


由 图 12-10 可 以 看 到 属性 6 的 权重 大 部 分 在 0. 22 一 0. 26 ,是 权重 最 大 的 一 个 属性 。 
图 12-11 所 示 为 属性 1 的 特征 权重 分 布 情况 。 
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图 12-11 块 厚度 (属性 1) 的 特征 权重 变化 


块 厚度 属性 的 特征 权重 大 部 分 在 0. 19 一 0. 25 变动 ,也 是 权重 较 高 的 一 个 ,说 明 该 特征 
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属性 在 乳腺 癌 患 者 检测 指标 中 是 相当 重要 的 一 个 判断 依据 。 进 一 步 分 析 显示 ,在 单独 对 属 
性 6 和 属性 1 进行 聚 类 分 析 时 ,其 成 功率 可 以 达到 91.8%。 在 下 节 中 的 K-Means 算法 中 详 
细 介 绍 。 

通过 ReliefF 算法 对 数据 集 进行 分 析 , 可 以 得 到 属性 权重 的 重要 程度 ,对 临床 诊断 有 一 
些 参 考 价值 ,可 以 用 于 对 实际 案例 进行 分 析 , 从 而 尽量 避免 错误 诊断 ,并 提高 诊断 的 速度 和 
正确 率 。 下 面 将 通过 K-Menas 聚 类 分 析 算 法 对 数据 进行 分 析 , 并 分 为 几 个 步骤 来 进行 对 
比 ,确定 聚 类 分 析 算 法 的 结果 以 及 与 ReliefF 算法 结合 的 结果 等 。 

3. 基于 数据 处 理 模型 

1) K-Means 算法 

(1) 算法 实现 。Matlab 中 已 经 包括 了 一 些 常 规 数据 挖掘 的 算法 ,例如 本 文 所 用 到 的 K- 
Means 算法 。 该 函数 名 为 K-Means, 可 以 对 数据 集 进行 聚 类 分 析 。 首 先 ,对 乳腺 癌 数 据 集 
的 所 有 属性 列 ( 除 去 身份 信息 和 分 类 列 ) 直 接 进行 分 类 。 由 于 数据 集结 果 只 有 两 种 类 型 ,所 
以 首先 分 两 类 进行 测试 。 将 683 条 数据 分 成 两 类 ,正确 率 见 表 12-9 。 

表 12-9 K-Means( 分 两 类 ) 算 法 正确 率 








总 正确 率 第 一 类 正确 率 第 二 类 正确 率 
94.44% 93. 56% 96. 31% 


限于 篇 幅 , 只 选择 了 上 述 3 个 特征 属性 进行 图 像 绘制 ,从 结果 来 看 , 可 以 很 直观 地 观察 
到 K-Means 算法 分 类 后 的 情况 : 第 一 类 与 第 一 类 的 分 类 界限 比较 清晰 ,但 是 不 容易 观察 到 
正确 和 错误 的 情况 。 

从 K-Means 算法 的 效果 来 看 ,能 够 很 准确 地 将 数据 集 进 行 分 类 。 一 方面 是 由 于 该 数据 
集 , 可 能 是 该 案例 特征 比较 明显 ; 另 一 方面 是 由 于 K-Means 算法 对 这 两 类 的 作用 较 大 。 

单 从 分 类 的 正确 率 和 结果 方面 来 看 ,K-Means 算法 已 经 完全 可 以 对 乳腺 癌 数 据 集 作出 
非常 准确 的 判断 。 但 考虑 ReliefF 算法 对 属性 权重 的 影响 ,本 小 节 将 结合 ReliefF 算法 和 
K-Means 算法 来 对 该 数据 集 进行 分 析 ,一 方面 得 到 处 理 该 问题 的 一 些 简单 的 结论 ; 另 一 方 
面 可 以 得 到 一 些 对 医学 处 理 数据 的 方法 。 

根据 不 同属 性 的 权重 来 对 K-Means 分 类 数据 进行 预 处 理 , 以 得 到 更 精确 的 结论 和 该 数 
据 更 深度 的 特征 规律 。 

由 于 属性 9 二 属性 5 二 属性 7 二 属性 4 二 属性 2 二 属性 3 二 属性 8 一 属性 1 到 属性 6 ,根据 
ReliefF 算法 原理 可 以 认为 ,对 于 属性 6 和 属性 1 这 种 重要 的 特征 属性 ,应 该 对 分 类 起 到 更 
大 的 作用 。 

总 的 分 类 正确 率 中 ,属性 9 最 低 , 属 性 6 最 高 .这 与 ReliefF 算法 测试 的 结果 大 致 相似 ， 
但 是 由 于 ReliefF 算法 的 中 间 部 分 权重 接近 ,所 以 也 区 分 不 明显 ,说 明 特 征 属性 权重 的 判断 
对 分 类 是 有 影响 的 。 上 述 单 独 分 类 中 ,只 需 将 需要 分 类 的 列 数据 取出 来 ,输入 K-Means 算 
法 中 。 由 于 输入 数据 的 变化 ,K-Means 分 类 时 的 结果 肯定 是 有 差距 的 ,所 以 单独 从 一 个 属 
性 判断 其 类 型 是 不 可 靠 的 。 下 面 对 特 征 权重 按照 从 大 到 小 的 顺序 ,选择 相应 的 数据 进行 聚 
类 分 析 ,结论 见 表 12-10。 

表 12-10 ”对 特征 权重 进行 聚 类 分 析 

















第 12 章 
SV re 
直接 选取 的 属性 成 功率 
6,1 91.36% 
6,1,8,3 93.85% 
lds 94.48% 
6,1,8,3,2,4,5,7 95.02% 








从 上 面 的 测试 可 以 看 出 ,选择 特征 权重 最 大 的 6 个 属性 ,其 正确 率 就 达到 了 选择 所 有 属 
性 的 情况 ,因此 可 以 认为 特征 权重 最 小 的 几 个 属性 在 乳腺 瘤 诊 断 过 程 的 实际 作用 可 能 比较 
小 ,甚至 有 可 能 造成 反作用 , 即 这 几 个 属性 值 与 乳腺 瘤 没 有 必然 的 联系 。 这 一 点 可 以 给 诊断 
作 参 考 ,或 者 引起 注意 并 作 进一步 的 研究 .确认 。 

虽然 从 上 述 实验 中 可 以 得 到 该 数据 集 的 大 部 分 结果 和 结论 ,但 是 为 了 更 加 准确 地 分 出 
相同 类 型 的 数据 ,下 面 将 尝试 分 为 三 类 情况 。 一 方面 ,可 以 分 析 在 乳腺 瘤 良 性 和 恶性 情况 下 
的 显著 特征 属性 ; 另 一 方面 ,也 可 以 根据 此 结果 找到 更 加 合理 的 解决 方法 。 

还 是 采用 Matlab 中 的 K-Means 函数 ,将 分 类 数 改 为 3。 由 于 分 为 三 类 后 ,数据 类 型 增 
多 ,判断 较 复 杂 , 所 以 需 手 动 对 数据 进行 分 析 , 加 入 所 有 特征 属性 。 运 行 结果 见 表 12-11, 测 
试 数据 共 683 条 ,其 中 良性 共 444 条 ,恶性 共 239 条 。 


表 12-11 K-Means( 分 三 类 ) 算 法 正确 率 











类 别 良性 比例 
第 一 类 96. 88% 
第 二 类 0% 
第 三 类 8% 





(2) 评估 模型 的 性 能 。 

根据 上 述 结果 ,可 以 认为 第 一 类 为 良性 的 分 类 ,第 二 类 为 恶性 的 分 类 ,第 三 类 为 混合 类 。 
混合 类 里 面 的 数据 较 其 他 数据 更 接近 于 偏离 病例 的 典型 数据 ,所 以 进一步 分 析 在 第 一 类 中 
和 第 二 类 中 的 分 类 正确 率 , 见 表 12-12。 


表 12-12 第 一 类 和 第 二 类 的 分 类 正确 率 























类 别 类 别 名 总 数据 /条 正确 率 
第 一 类 良性 448 96. 88% 
第 二 类 恶性 99 100% 
第 三 类 混合 类 136 





因此 单 从 分 类 后 的 正确 率 来 看 ,效果 有 提高 ,说明 对 典型 的 病例 数据 分 类 更 准确 ,但 是 
仍 无 法 区 分 第 三 类 数据 。 这 种 情况 下 ,其 意义 不 在 于 分 类 的 整体 正确 率 , 而 在 于 在 一 些 特殊 
情况 下 ,可 以 根据 一 些 重要 的 特征 属性 值 就 可 以 为 患者 确诊 ,从 而 提高 效率 和 准确 率 ,减少 





误诊 的 概率 。 


(3) 提高 模型 性 能 。 


上 面 是 将 所 有 属性 进行 K-Means 变换 ,下 面 将 结合 ReliefF 算法 , 先 去 掉 一 部 分 特征 权 
重 较 小 的 特征 属性 后 ,再 进行 K-Means 处 理 。 根 据 表 12-8, 提 取 权 重 最 大 的 6 个 属性 进行 
测试 ,分 别 是 属性 6、 属性 1、 属 性 8、 属 性 3、 属 性 2、 属 性 4。 


表 12-13 第 一 类 和 第 二 类 的 分 类 正确 率 














类 别 类 别 名 总 数据 /条 正确 率 
第 一 类 良性 281 97.51% 
第 二 类 恶性 211 97.16% 
第 三 类 混合 类 191 














对 比 表 12-13 和 表 12-12 可 以 看 到 ,虽然 良性 的 正确 率 增加 了 ,但 是 检测 出 的 数据 减少 
了 。 第 三 类 混合 的 数量 也 增多 了 ,说明 提出 了 特种 属性 较 小 的 属性 ,可 以 更 加 容易 区 分 极端 
的 病例 数据 ,对 极端 数据 的 检测 更 加 准确 。 

2) KNN 算法 

(1) 算法 实现 。 有 了 训练 数据 集 和 标签 向 量 后 ,可 以 对 未 知 记录 进行 分 类 。KNN 算法 
的 训练 阶段 不 包括 模型 的 建立 , 仅 涉及 以 结构 化 格式 存储 输入 数据 。 

为 了 将 测试 实例 进行 分 类 ,使 用 一 个 来 自 class 添加 包 的 KNN 算法 来 实现 ,该 添加 包 
提供 了 一 组 用 于 分 类 的 基本 R 函数 。 如 果 该 添加 包 尚 未 安装 到 系统 上 ,可 以 通过 输入 
install. packagges() 函 数 来 安装 它 。 

为 了 在 希望 使 用 这 些 函 数 的 任何 会 话 期 间 载 人 该 添加 包 , 只 需要 输入 library (class) 
命令 。 

class 添加 包 中 的 knn() 函数 提供 了 一 个 标准 的 KNN 算法 实现 。 对 于 测试 数据 中 的 每 

-个 实例 ,该 函数 将 使 用 欧 氏 距离 标识 个 近邻 ,其 中 是 用 户 指定 的 一 个 数 。 于 是 ,通过 
上 个 近邻 的 “投票 ”来 对 测试 案例 进行 分 类 。 确 切 地 说 ,该 过 程 涉及 将 实例 归 类 到 个 近邻 
中 的 大 多 数 所 在 的 那个 类 。 如 果 各 个 类 的 票数 相等 ,该 测试 实例 会 被 随机 分 类 。 

在 其 他 R 添加 包 中 ,还 有 几 个 其 他 的 knnQ 〇 函数 提供 了 更 加 复杂 或 者 更 加 高 效 的 算法 
实现 。 如 果 受 到 knn() 函 数 的 限制 ,可 以 在 R 综合 文档 网 络 (Comprehensive R Archive 
Network,CRAN) 中 搜索 KNN。 

使 用 knn() 函数 进 行 训练 和 分 类 是 在 一 个 单一 的 函数 调用 中 执行 的 , 它 包含 4 个 参数 ， 
如 图 12-12 所 示 。 

现在 有 了 把 KNN 算法 应 用 到 该 数据 集中 的 几乎 所 有 参数 ,并 已 经 把 数据 划分 成 训练 
数据 集 和 测试 数据 集 ,每 个 数据 集 都 有 完全 相同 的 数值 特征 。 训 练 数据 中 的 标签 存储 在 一 
个 单独 的 因子 向 量 中 ,唯一 剩 下 的 参数 是 A, 它 指定 投票 中 所 包含 的 邻居 数 。 

由 于 训练 数据 集 含 有 469 个 实例 ,所 以 可 尝试 k= 二 21, 它 是 一 个 大 约 等 于 469 的 平方 根 
的 奇数 。 根 据 二 分 类 的 结果 ,使 用 奇数 将 消除 各 个 类 票数 相等 这 一 情况 发 生 的 可 能 性 。 

使 用 knn() 函数 对 测试 数据 进行 分 类 。 


>wbcd test pred< -knn(train=wbcd train, test=wbcd test,cl=wbcd train labels,k=2]) 


函数 knn() 返 回 一 个 因子 向 量 , 为 测试 数据 集中 的 每 一 个 案例 返回 一 个 预测 标签 ,将 该 
因子 向 量 命名 为 wbcd_test_pred。 
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创建 分 类 器 并 进行 预测 : 


p <- knn(train, test, class, k) 
train: 一 个 包含 数值 型 训练 数据 的 数据 框 
test: 一 个 包含 数值 型 测试 数据 的 数据 框 


class: 包含 训练 数据 每 一 行 分 类 的 一 个 因子 向 量 


k: 标识 近邻 数 的 一 个 整数 


该 函数 返回 一 个 因子 向 量 ， 该 向 量 含 有 测试 数据 框 中 每 一 行 的 预测 分 类 。 
例子 : 


wbcd_pred <- knn(train=wbcd train，test=wbcd test, 


cl=wbcd_train_lables，x=3) 





("gmodels") 命 令 进行 安装 。 


图 12-12 ”kNN 分 类 语法 


(2) 评估 模型 的 性 能 。 该 过 程 的 下 一 步 是 评估 wbcd_test_pred 向 量 中 预测 的 分 类 与 
wbcd_test_labels 向 量 中 已 知 值 的 匹配 程度 如 何 。 为 了 做 到 这 一 点 ,可 以 使 用 gmodels 添加 
包 中 的 CrossTable ( ) 函数 。 如 果 还 没有 安装 该 添加 包 , 可 以 使 用 install. packages 


在 使 用 library(gmodels) 命 令 载 人 该 添加 包 后 ,可 以 创建 一 个 用 于 标识 两 个 向 量 之 间 一 致 
性 的 交叉 表 。 指 定 参数 prop. chisq 二 FALSE, 从 输出 中 去 除 不 需要 的 卡 方 (chi-square) 值 。 


>wbcd test pred< -knn(train=wbcd train,test=wbcd test,cl=wbcd train labels,k=21) 
由 此 产生 的 分 类 正确 率 见 表 12-14。 
表 12-14 KkNN 算法 分 类 正确 率 


wbcd_test_pred 



































wbcd_test_labels Benign Malignant Row Total 
61 0.000 61 
1.000 0.000 0.610 
Benign 
0.968 0.000 
0.610 0.000 
2 37 39 
Mali 0.051 0. 949 0. 390 
t 
es 0.032 1. 000 
0.020 0.370 
63 37 100 
Column Total 
0.630 0.370 














表格 中 单元 格 的 百分比 表示 落 在 4 个 分 类 中 的 值 所 占 的 比例 。 左 上 角 的 单元 格 表示 真 
阴性 (True Negative) 的 结果 。100 个 值 中 有 61 个 值 标识 肿块 是 良性 的 ,而 KNN 算法 也 正 
确 地 把 它们 标识 为 良性 的 。 右 下 角 的 单元 格 表示 真 阳 性 (True Positive) 的 结果 ,表示 分 类 
器 和 临床 确定 的 标签 一 致 认为 肿块 是 恶性 的 情形 。100 个 预测 值 中 有 37 个 是 真 阳 性 (True 


Positive) 的 。 


落 在 另 一 条 对 角 线 上 的 单元 格 包含 了 KNN 算法 与 真实 标签 不 一 致 的 案例 计数 。 位 于 


左下 角 单 元 格 的 2 个 案例 是 假 阴性 (False Negative) 的 结果 。 在 这 种 情况 下 ,预测 的 值 是 良 
性 的 ,但 肿瘤 实际 上 是 恶性 的 。 这 个 方向 上 的 错误 可 能 会 产生 极其 高 昂 的 代价 ,因为 它们 可 
能 导致 一 位 病人 认为 自己 没有 癌症 ,而 实际 上 这 种 疾病 可 能 会 继续 蔓延 。 如 果 右 上 角 单 元 
格 里 有 值 , 它 包含 的 是 假 阳性 (False Positive) 的 结果 。 当 模型 把 肿块 标识 为 恶性 的 ,而 事实 
上 它 是 良性 的 就 会 产生 这 里 的 值 。 尽 管 这 类 错误 没有 假 阴 性 (False Negative) 的 结果 那么 
危险 ,但 这 类 错误 也 应 该 避免 ,因为 它们 可 能 会 导致 医疗 系统 的 额外 财政 负担 ,或 者 病人 的 
额外 压力 ,毕竟 这 需要 提供 额外 的 检查 或 者 治疗 。 

如 果 需 要 ,可 以 通过 将 每 一 个 肿块 分 类 为 恶性 肿块 来 完全 排除 假 阴 性 (False Negative) 
的 结果 。 显 然 ,这 是 一 个 不 切实 际 的 策略 。 然 而 , 它 说 明了 一 个 事实 , 即 预测 涉及 假 阳 性 
(False Positive) 比率 和 假 阴 性 (False Negative) 比 率 之 间 的 一 个 平衡 ,需要 用 更 复杂 的 方法 
来 度量 预测 的 准确 性 ,根据 每 种 错误 类 型 的 成 本 来 找 出 那些 错误 率 可 以 被 优化 的 地 方 。 

根据 KNN 算法 ,错误 率 为 2% , 即 100 个 肿块 中 有 2 个 是 被 错误 分 类 的 。 虽然 对 于 仅 
用 几 行 R 代码 就 得 到 98% 的 准确 度 似乎 令 人 印象 深刻 ,但 是 仍 可 以 尝试 一 些 其 他 的 模型 迭 
代 方 法 来 看 看 是 否 可 以 提高 性 能 ,并 减少 错误 分 类 值 的 数量 ,特别 当 错误 是 危险 的 假 阴 性 
(False Negative) 结 果 时 。 

(3) 提高 模型 的 性 能 。 虽 然 min-max 标准 化 是 传统 上 用 于 KNN 分 类 的 方式 ,但 它 并 
不 一 定 总 是 最 合适 的 调整 特征 的 方法 。 因 为 = 分 数 标准 化 后 的 值 没有 预定 义 的 最 小 值 和 最 
大 值 ,所 以 极端 值 不 会 被 压缩 到 中 心 。 有 人 怀疑 在 有 一 个 恶性 肿瘤 的 情况 下 ,可 能 得 到 一 些 
非常 极端 的 异常 值 ,因为 肿瘤 的 生长 不 受 控 制 。 然 而 ,让 异常 值 在 距离 计算 中 占有 更 大 的 权 
重 可 能 是 合理 的 。 下 面 来 看 看 x 分数 标准 化 是 否 能 够 提高 预测 的 准确 性 。 

为 了 标准 化 一 个 向 量 ,可 以 使 用 R 内 置 的 scale 〇 函数 ,该 函数 默认 使 用 * 分 数 标准 化 来 重 
新 调整 特征 的 值 。scale() 函数 提供 的 一 个 额外 好 处 是 它 能 够 直接 应 用 于 数据 框 , 这 样 可 以 避 
免 使 用 lapplyO 〇 函数 。 为 了 创建 一 个 wbcd 数据 的 = 分 数 标准 化 版 本 ,可 以 使 用 下 面 的 命令 。 


> wbcd z< -as.data.frame (scale(wbcdL-1])) 


该 命令 重新 调整 除了 diagnosis 以 外 的 所 有 特征 ,并 把 结果 存储 在 wbcd_z 数据 框 中 ,后 
级 _z 作为 一 个 提示 , 即 特征 值 已 经 进行 了 = 分 数 标准 化 。 

为 了 确认 变换 是 否 正确 ,可 以 看 一 看 汇总 统计 量 。 

> summary (wbcd z$ radius mean) 

Min. lst Qu. Median Mean 3rd Qu. Max. 

-2.0280 -0.6888 -0.2149 0.0000 0.4690 3.9680 

一 个 = 分 数 标准 化 变量 的 均值 应 该 始终 为 0 而 且 其 值 域 应 该 非常 紧凑 ,一 个 大 于 3 或 
者 小 于 一 3 的 = 分 数 表示 一 个 极其 罕见 的 值 , 考 虑 到 这 一 点 ,变换 似乎 已 经 奏效 。 
正如 之 前 所 做 的 那样 ,需要 将 数据 划分 为 训练 数据 集 和 测试 数据 集 ,然后 使 用 knn() 函 
数 对 测试 实例 进行 分 类 ,最 后 使 用 CrossTable() 函数 来 比较 预测 的 标签 与 实际 的 标签 。 








wbcd train< -wbcd z[1:469,] 
wbcd test< -wbcd z[ 470:569,] 
wbcd train labels< -wbcdL1:469,]] 
wbcd test labels< -wbcd[ 470:569,1] 
>wbcd test pred< - knn (train=wbcd train, test=wbcd test,cl=wbcd train labels,k=21) 


Es 
> 
> 
> 
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在 表 12-15 中 ,应 用 新 变换 得 到 的 结果 的 准确 性 略 有 降低 。 之 前 正确 分 类 了 98% 的 案 
例 , 这 一 次 仅 正确 分 类 了 95% 的 案例 。 更 糟糕 的 是 ,并 没有 在 假 阴 性 (False Negative) 的 分 
类 结果 上 做 得 更 好 。 
表 12-15 kNN 算法 分 类 正确 率 


wbcd_test_pred 






































wbcd_test_labels Benign Malignant Row Total 
61 0. 000 61 
1. 000 0. 000 0.610 
Benign 
0.968 0.000 
0.610 0.000 
5 34 39 
0.128 0.872 0.390 
Malignant 
0.076 1.000 
0.050 0.340 
66 34 100 
Column Total 
0.660 0.340 











现在 使 用 一 个 新 的 模型 一 一 朴素 贝 叶 斯 模型 来 进行 预测 。 


>wbcd train$ labels < - wbcd train labels 
>1library (e1071) 
>modell < - naiveBayes (wbcd train,wbcd train$ labels) 
>pred < - predict (modell,wbcd test) 
> table (pred, wbcd test labels) 
Benign Malignant 
Benign 型 2 
Malignant 6 21 
对 于 上 述 数据 分 析 可 知 ,K-Means 聚 类 算法 的 正确 率 为 97% ,朴素 贝 叶 斯 算法 的 正确 
率 为 92% ,而 KNN 算法 的 正确 率 为 98%。 若 要 对 威斯康星 乳腺 癌 数 据 进 行 分 类 ,KNN 算 
法 要 好 一 些 。 


126 交通 行业 大 数据 应 用 


交通 困 局 已 经 成 为 全 民 密 切 关 注 的 问题 。 伴 随 近 几 年 大 数据 分 析 、 挖 掘 等 技术 迅速 发 
展 , 对 海量 的 交通 数据 进行 挖掘 分 析 是 交通 领域 发 展 的 重要 方向 。 和 凭借 大 数据 等 先进 技术 
解决 日 益 紧 迫 的 交通 问题 成 为 政府 与 社会 各 机 构 研 究 的 热点 。 


12.6.1 大 数据 在 智能 交通 行业 的 挑战 


随 着 智能 交通 技术 的 不 断 发 展 ,凭借 各 种 交通 数据 采集 系统 ,交通 领域 积累 的 数据 规模 
庞大 ,飞机 、 列 车 ,水 陆路 运输 逐年 累计 的 数据 从 过 去 的 TB 级 别 达到 目前 的 PB 级 别 , 利 用 
大 数据 破解 当前 诸多 交通 瓶颈 问题 成 为 未 来 交通 行业 的 必由之路 ,交通 信息 化 建设 必然 步 
和 大 数据 所 带 来 的 智慧 应 用 阶段 。 主 要 智慧 应 用 如 下 。 





(1) 道路 交通 : 典型 数据 为 城市 道路 交通 指数 、 高 架 臣 道 运行 数据 ,公交 车 实时 数据 、 
营运 车 数据 ,物流 车 辆 及 货物 数据 等 ,其 主要 应 用 价值 体现 在 拥堵 治理 .路 网 规划 、 出 行 引 
导 、 智 能 公交 、 实 时 路 况 、 车 辆 监控 、 危 机 防护 等 。 

(2) 轨道 交通 : 典型 数据 为 地 铁 运行 数据 ,轨道 交通 运营 数据 .一 卡通 乘客 数 卡 数据 、 
清算 数据 等 ,其 主要 应 用 价值 体现 在 客流 分 析 、 站 点 分 析 、 政 策 辅助 决策 、 指 挥 调度 、 异 常 检 
测 、 广 告 投放 ,设备 监控 预警 等 。 

(3) 城市 静态 交通 : 典型 数据 为 停车 场 数据 、 路 网 信息 、 车 辆 保有 信息 ,城市 基础 地 理 
信息 .交通 管理 信息 、 气 象 信息 等 ,其 主要 应 用 价值 体现 在 拥堵 治理 ,交通 基 础 设施 规划 建 
设 、 出 行 引导 、 停 车 诱导 、 交 通 管理 优化 等 。 

(4) 航空 /海运 : 典型 数据 为 港口 集装箱 数据 、 机 场 航班 数据 、 远 洋 及 内 河 航 道 船 舶 数 
据 、 航 路 信息 、 气 象 数据 、 法 规 数据 等 ,其 主要 应 用 价值 体现 在 航线 规划 、 运 力 匹 配 、 配 载 优 
化 、 智 能 船舶 .货物 跟踪 ,应急 预警 等 。 

(5) 交通 衍生 信息 : 典型 数据 为 道路 事故 数据 、 车 辆 违法 信息 、 交 通 监控 信息 、 交 通 管 
制 信息 等 ,其 主要 应 用 价值 体现 在 治安 防护 、 应 急 处 置 、 交 通 管理 ,刑侦 分 析 、 协 同 指挥 、 增 值 
信息 共享 等 。 

将 以 上 海量 的 数据 整合 后 ,通过 大 数据 挖掘 与 建 模 等 方法 ,可 以 有 效 地 实现 事前 预防 
事 中 监管 一 事后 评估 一 事前 预防 这 种 可 自 优化 的 生态 闭环 ,借助 大 数据 带 来 的 智慧 解决 交 
通 所 面临 的 困境 。 


12.6.2 ”交通 行业 大 数据 应 用 案例 


案例 12-18 ”大 数据 解决 波士顿 堵车 难题 

与 全 球 很 多 大 都 市 一 样 ,波士顿 长 期 被 堵车 难题 困扰 ,IBM 的 专家 们 以 及 来 自 波士顿 
大 学 的 技术 人 员 准 备 制定 一 个 优化 的 交通 管理 计划 ,能够 更 快 地 发 现 拥 堵 问 题 ; 通过 制定 
更 好 的 自行 车 、 泊 车 和 交通 管理 政策 ,大 幅 降 低 碳 排放 。 通 过 整合 、 分 析 现 有 交通 数据 ,以 及 
来 自 社交 媒体 (Twitter) 的 新 数据 源 . 来 医治 波士顿 的 交通 问题 。IBM 给 出 的 答案 是 可 以 安 
装 在 iPhone 上 的 移动 应 用 分 析 软 件 , 类 似 移动 BI 仪表 盘 , 可 供 市 政 规划 人 员 使 用 ,但 波 士 
顿 市 政府 透露 将 来 也 会 发 布 面向 公众 的 iPhone 交通 应 用 ,将 部 分 数据 公开 。 这 些 数据 包括 
市 政 网 联网 能 够 实时 采集 的 交通 信号 灯 、 二 氧化 碳 传感器 以 及 汽车 的 数据 ,这 些 数据 能 够 帮 
助 乘客 重新 调整 路 线 ,节省 时 间 ,节省 汽油 。 

案例 12-19 上 海 用 大 数据 APP 缓解 交通 压力 

针对 上 海 的 道路 交通 负荷 的 超 饱 和 状态 ,大 数据 在 上 海 交 通 中 已 经 得 到 广泛 运用 。 从 
2004 年 开始 ,上 海 经 过 多 年 的 持续 建设 和 应 用 ,基本 实现 了 对 全 市 中 心 域 区 主要 地 面 道路 、 
城市 快速 路 .高速 公路 信息 采集 和 发 布 的 覆盖 。 目 前 ,对 交通 信息 的 采集 主要 是 通过 地 磁 
线 、. 出 租车 GPS 信息 、 视 频 图 像 、 信 号 控制 系统 等 方式 ,采集 车 速 流量、 交通 事件 等 实时 数 
据 , 经 过 网 络 传输 汇集 到 交通 信息 平台 ,实现 部 门 交通 数据 的 汇聚 .共享 与 交换 。 

上 海 - 智 行者 APP 主要 实现 用 户 对 上 海 市 路 况 的 整体 了 解 ,以 简 图 的 形式 呈现 给 用 户 ， 
方便 用 户 及 时 掌握 市 内 主要 区 域 的 造 路 状况 . 可 以 根据 不 同 的 路 况 优 化 行车 路 线 ,节约 旅 
行 成 本 。 针 对 不 同 路 网 的 交通 特征 ,通过 获取 包括 数字 视频、 图像 等 多 类 型 的 交通 数据 ,经 
数据 的 分 析 处 理 , 获 得 道路 交通 通行 指数 和 通行 状态 ,通过 车 载 终端 .智能 手机 、 网 站 和 电台 
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等 ,多 载体 、 多 方式 地 实现 交通 状态 信息 的 发 布 服务 。 

案例 12-20 ”百度 地 图 与 交通 部 门 合 作 深 控 大 数据 

百度 地 图 并 不 满足 于 对 自 有 大 数据 进行 挖掘 ,而 是 与 交通 部 门 的 公共 交通 数据 密切 合 
作 。 公 共 交 通 大 数据 与 百度 用 户 大 数据 结合 起 来 可 能 具有 难以 估量 的 价值 。 

(1) 大 幅 提 升 用 户 出 行 体验 。 百 度 地 图 与 江苏 交通 部 门 合 作 , 接 入 南京 实时 公交 数据 
之 后 ,用 户 就 可 在 百度 地 图 查询 公交 实时 到 站 信息 。 除 了 实时 公交 之 外 ,与 成 都 合作 接 入 最 
新 路 网 信息 ,地 图 导航 就 会 第 一 时 间 知 晓 交 通 事故 、 道 路 维修 、 交 通 管 制 等 情况 ,进而 提升 出 
行 体验 。 

(2) 提高 日 常 交 通 朴 导 效率 。 基 于 互联 网 地 图 ,交通 信息 不 需 通 过 大 屏幕 就 可 传递 给 
司机 。 例 如 ,交通 部 门 可 在 云端 玖 导 , 司 机 则 通过 车 载 导 航 或 手机 地 图 收 到 语音 指令 ,这 样 
可 避免 让 交警 处 于 复杂 恶劣 的 交通 环境 中 。 再 比如 有 地 方 发 生 交通 事故 ,用 户 可 通过 百度 
地 图 的 个 性 化 导航 绕 行 。 借 助 于 互联 网 地 图 ,交通 部 门 信息 将 更 有 效 地 传递 给 市 民 , 实 现 云 
端 调度 ,提升 道路 资源 的 使 用 效率 ,降低 城市 拥堵 程度 。 

(3) 辅助 宏观 交通 规划 决策 。 基 于 海量 大 数据 的 分 析 结 果 , 可 有 效 地 进行 交通 规划 决 
策 , 进 而 提升 整体 效率 ,尤其 是 公共 交通 规划 、 公 交 路 线 、 地 铁 班 线 、 出 租车 配额 ,诸多 公共 交 
通 资源 配置 决策 均 可 基于 大 数据 进行 。 

(4) 为 共享 出 行 提供 基础 支持 。 共 享 出 行 的 本 质 是 基于 LBS 的 大 数据 出 行 方式 ,共享 
出 行 平 台 依赖 地 图 进行 派 单 . 计 费 .导航 。 

(5) 无 人 车 十 分 依赖 公共 大 数据 。 无 人 车 被 视 作 根治 交通 问题 的 终极 解决 方案 ,只 有 
无 人 车 的 交通 系统 更 有 效率 .更 安全 ,更 环保 。 无 人 车 要 全 面 上 路 ,必须 依赖 于 政府 部 门 提 
供 的 实时 而 全 面 的 交通 数据 ,否则 无 人 车 很 可 能 会 开 进 死 胡同 出 不 来 ,或 者 遇 到 道路 维修 造 
成 无 人 车 大 堵车 。 基 于 公共 交通 大 数据 ,无 人 车 就 能 接受 云端 的 准确 调度 ,选择 正确 路 线 。 


127 生产 制造 业 大 数据 应 用 


12.7.1 大 数据 对 生产 制造 业 的 影响 及 前 景 


新 一 轮 工 业 革命 的 背后 是 智能 制造 ,是 向 效率 更 高 ,更 精细 化 的 未 来 制造 发 展 。 信 息 技 
术 使 得 制造 业 从 数字 化 走向 了 网 络 化 ,智能 化 。 智 能 化 是 在 控制 的 基础 上 ,通过 物 联 网 、 传 
感 器 采集 海量 生产 数据 ,通过 互联 网 汇集 到 云 计 算数 据 中 心 ,然后 通过 信息 管理 系统 对 大 数 
据 进行 分 析 、 挖 掘 ,从 而 作出 正确 的 决策 。 这 些 决 策 附加 给 自动 化 设备 的 是 “智能 ,从 而 提 
高 生产 灵活 性 和 资源 利用 率 ,增强 顾客 与 商业 合作 伙伴 之 间 的 紧密 关联 度 ,并 提升 工业 生产 
的 商业 价值 。 

在 网 络 协同 制造 的 闭环 中 ,用 户 、 设 计 师 、 供 应 商 、 分 销 商 等 角色 都 会 发 生 改 变 。 与 之 相 
伴 而 生 ,传统 价值 链 也 将 不 可 避免 地 出 现 破碎 与 重 构 。 大 数据 将 主导 未 来 的 制造 业 。 首 先 ， 
从 最 小 的 层面 一 一 企业 来 看 ,工业 大 数据 为 企业 全 过 程 设计 、 创 新 .生产 、 经 营 、 管 理 , 决 策 服 
务 ,为 企业 的 发 展 战略 和 目标 的 实现 服务 。 第 二 个 层面 ,工业 大 数据 服务 于 供应 链 的 优化 、 
产业 链 的 完善 .生态 链 的 形成 和 优化 。 从 供应 链 、 产 业 链 、 生 态 链 来 看 ,不 管 是 CSM 的 生产 
圈 , 还 是 一 个 特定 产品 制造 过 程 的 供应 链 , 或 是 一 个 完整 生产 过 程 的 分 析 , 工 业 大 数据 都 是 


为 了 它 的 形成 和 优化 。 第 三 个 层面 ,工业 大 数据 要 满足 行业 和 宏观 决策 调控 的 实际 需求 , 提 
高 行业 和 宏观 经 济 管理 决策 质量 与 能 力 。 第 四 个 层面 ,从 工业 转型 升级 的 需求 看 ,工业 大 数 
据 是 为 了 一 个 个 企业 .行业 装备. 工艺. 生产线 、 供 应 链 的 转型 升级 服务 。 


12.7.2 生产 制造 业 大 数据 应 用 案例 


案例 12-21 大 数据 结合 ERP 助力 生产 

ERP 系统 是 企业 资源 计划 的 简称 ,是 建立 在 信息 技术 基础 上 , 集 信息 技术 与 先进 管理 
思想 于 一 身 , 以 系统 化 的 管理 思想 为 企业 员工 及 决策 层 提供 决策 支持 的 管理 平台 。 其 核心 
思想 
企业 核心 竞争 力 具 有 显著 作用 。 例 如 ,苏宁 云 商 , 即 为 大 数据 时 代 下 ERP 系统 构建 。 

在 大 数据 时 代 下 ,IT 技术 的 有 效 运用 已 成 为 企业 创新 的 商业 模式 和 发 现 新 的 增长 点 的 
关键 所 在 。 苏 宁 是 国内 最 早 使 用 ERP 系统 的 企业 之 一 ,已 实现 了 利用 信息 技术 对 企业 财 

` 会 计 、 生 产物 料 管理 .品质 管理 、 销 售 和 分 销 、 人 力 资源 管理 \ 供 应 链 管 理 等 系统 的 整合 

和 连接 。 面 对 持续 火爆 的 电子 商务 热潮 和 大 数据 新 潮 , 苏 宁 云 商 对 企业 的 物流 、 资 金 流 和 信 
息 流 三 方面 资源 进行 了 新 一 轮 的 构建 。 以 会 计 系统 整合 为 主 ,ERP 系统 致力 于 将 企业 的 采 
购 .生产 、 销 售 、 库 在 和 其 他 业务 功能 整合 到 一 个 信息 管理 平台 上 ,发 挥 两 者 之 间 的 协同 作 
用 。 既 可 以 分 析 和 明确 两 系统 间 的 数据 联系 ,实现 共同 的 数据 编码 统一 、 数 据 结 构 统一 , 拓 
宽 可 共享 数据 范围 ,避免 数据 的 不 一 致 性 ,实现 信息 共享 ; 又 保证 了 数据 获取 的 准确 性 、 数 
据 处 理 的 及 时 性 和 数据 运用 的 有 效 性 。 

案例 12-22 长安 汽车 数据 与 制造 的 结合 

在 以 往 , 长 安 汽车 所 有 产品 的 开发 数据 、 工 业 数 据 \ 制 造 数据 由 不 同 部 门 各 自分 管 ,导致 
从 研发 到 生产 数据 并 不 唯一 ,系统 之 间 的 关联 性 也 不 强 。 为 此 ,长 安 汽 车 建 起 了 一 套 以 
PDM 系统 为 核心 的 全 球 在 线 研发 平台 ,把 数据 源 打通 ,使 所 有 数据 在 同一 个 链条 上 互动 , 优 
化 了 在 线 协 同 研发 机 制 。 在 这 个 平台 之 上 ,全 球 共 享 单一 数据 源 , 提 供 实时 准确 的 数据 , 支 
撑 五 国 九 地 、7X24 小 时 在 线 协同 研发 。 同 时 ,通过 数字 化 设计 和 制造 仿真 分 析 , 提 前 发 现 
问题 ,以 减少 后 期 变更 成 本 ,减少 实物 验证 次 数 。 在 抓 住 了 数据 源 之 后 ,长 安 汽 车 信息 管理 
部 把 研发 成 本 控制 在 了 原来 的 80% 上 下 ,协同 效率 的 提升 更 使 得 生产 等 环节 的 成 本 得 到 控 
制 。 订 单 到 交付 的 信息 平台 打通 了 整个 业务 链条 的 信息 节点 ,也 使 得 长 安 集 团 从 “ 推 式 生 
产 ” 变 成 “ 拉 式 生产 ”。 改 为 “ 拉 式 生产 ”后 ,长安 集团 依然 通过 预测 来 制订 生产 计划 ,但 与 以 
往 库存 拉动 生产 不 同 的 是 , 当 来 自 终端 消费 者 市 场 的 订单 下 单 后 ,厂家 会 在 本 地 区 或 其 他 地 
区 的 库存 中 查找 经 销 商 想 要 的 车 辆 ,或 是 将 生产 中 的 车 辆 变更 分 配 交 给 经 销 商 ,在 库存 一 生 
产 一 计划 的 供应 链 上 最 大 化 满足 订单 。 同 时 ,打通 订单 到 工 单 断 点 , 让 经 销 商 获得 车 辆 的 
生产 信息 ,从 经 销 商 到 制造 ,再 到 发 运 的 过 程 管理 透明 化 , 整 车 物流 也 可 以 提前 配 板 。 通 过 
打通 信息 流 , 来 找 出 需求 和 生产 之 间 的 平衡 点 ,解决 需求 和 生产 不 匹配 的 问题 。 

案例 12-23 乐 百 氏 BI 系统 助力 企业 成 长 

乐 百 氏 集团 是 国内 闻名 的 大 型 快速 消费 品 饮料 企业 。 逐 鹿 商 业 智 能 解决 方案 为 其 深度 
分 销 体系 的 监控 与 管理 提供 了 重要 保障 。 方 案 实 施 后 ,无 论 是 渠道 \ 组 织 . 人 员 终 端 \ 终 端 
销售 状况 市场 状况 、 费 用 状况 、 库 存 状况 、 客 户 状 况 等 信息 ,都 能 够 通过 企业 绩效 管理 门户 
实时 查询 与 分 析 , 辅 助 管理 者 将 “以 售 点 为 本 ”的 渠道 管理 策略 执行 到 位 。 
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在 乐 百 氏 ,总 部 管理 层 月 末 可 以 轻易 调 出 零售 店 的 数据 ` 经 销 商 的 数据 ,了 解 各 分 店 的 
进货 量 ` 销 售 代表 业绩 及 产品 市 场 表现 。 原 来 曾 发 生 的 恶性 事件 一 一 分 给 某 个 市 场 部 
200 家 客户 ,一 个 月 下 来 只 做 了 10 家 大 客户 的 业务 ,而 95% 的 客户 都 没 照顾 到 的 现象 没有 
了 ,因为 报表 不 仅 统计 销量 ,还 统计 每 单 金额 数 、 拜 访客 户 数 ,上 且 进行 月 度 之 间 的 横向 对 比 , 销 
售 代表 不 再 有 虚报 空间 ; 如 果 是 人 力 资源 不 够 ,总 部 会 立即 参考 报表 数据 追加 合理 雇员 数目 。 





128 信息 通信 大 数据 解决 方案 


12.8.1 信息 通信 大 数据 应 用 


随 着 大 数据 在 我 国 的 大 力 推进 和 快速 发 展 , 我 国 通 信 业 大 数据 产业 生态 也 逐步 建立 完 
善 。 作 为 通信 业 大 数据 的 重要 主体 ,电信 运营 商 积 极 构建 大 数据 产业 生态 体系 。 一 方面 加 
强大 数据 基础 平台 建设 ,利用 大 数据 提升 管理 运营、 网 络 、 研 发 的 能 力 ,实现 精细 化 运营 , 提 
高 客户 洞察 力 和 产业 服务 水 平 ; 另 一 方面 利用 庞大 的 数据 资源 为 支撑 ,盘活 数据 资产 ,挖掘 
数据 价值 ,联合 各 方 推进 数据 开放 共享 ,创新 应 用 合作 和 商业 模式 ,实现 业务 增长 和 转型 。 
信息 通信 业 以 大 数据 为 基础 ,从 传统 电信 服务 向 互联 网 服务 延伸 ,深入 推进 与 经 济 社会 各 领 
域 的 融合 ,创新 服务 应 用 ,在 洞察 客户 个 性 化 需求 、 精 准 营 销 等 方面 联动 数据 ,不 断 将 数据 优 
势 转化 为 市 场 优 势 。 同 时 启动 网 络 重 构 , 夯 实 基 础 ,从 精细 化 运营 入 手 , 探 索 更 多 可 行 的 商 
业 模 式 , 支 撑 引 领 着 经 济 社会 的 转型 发 展 。 


12. 8.2 信息 通信 大 数据 应 用 案例 


案例 12-24 ”中 国联 通 开启 大 数据 探索 之 路 

中 国联 通 自 2012 年 成 立 集团 数据 中 心 以 来 ,在 此 基础 上 建成 了 一 个 覆盖 全 国 3 亿 用 户 
数据 的 大 数据 平台 ,该 平台 包含 2000 个 数据 节点 ,数据 量 已 达 4PB, 是 目前 国内 乃至 国际 运 
营 商 中 规模 最 大 、 处 理 能 力 最 强 的 平台 之 一 。 基 于 大 数据 平台 ,中 国联 通 为 改善 客户 体验 和 
提升 服务 质量 已 实施 了 若干 客户 体验 管理 解决 方案 。 至 今 , 该 平台 应 用 已 取得 显著 效益 , 基 
于 大 数据 支撑 开展 的 自动 化 存量 维系 营销 活动 ,维系 用 户 数 已 达 1. 45 亿 , 营 销 精 准 度 提高 
了 7 倍 , 营 销 收入 达 1191.5 亿 元 人 民 币 。 通 过 专注 于 网 络 、 销 售 、 服 务 、 产 品 、 消 费 和 应 用 
6 个 维度 的 一 体 化 客户 体验 改善 计划 ,客户 流失 率 降低 了 12%; 通过 开展 精准 营销 ,中 国联 
通 2014 年 移动 市 场 份额 增加 5.3% ,销售 成 本 同期 降低 了 21%。 同 时 ,中 国联 通通 过 挖掘 
潜在 的 用 户 需求 ,为 进一步 实现 企业 转型 和 创新 发 展 推出 了 实时 竞价 广告 服务 、 在 线 金融 服 
务 以 及 智能 交通 和 智能 城市 服务 等 一 系列 新 的 数据 服务 和 产品 ,积极 扩大 了 业务 范围 。 大 
数据 分 析 应 用 已 成 为 企业 降 本 增收 、 增 加 用 户 黏 性 、 提 高 用 户 服务 水 平 , 挖 据 客户 潜在 价值 、 
拓展 现 有 业务 范畴 、 创 新 收入 流 的 关键 要 素 之 一 。 

案例 12-25 ”法 德 电信 大 力 发 掘 大 数据 价值 

几 年 前 ,法 国电 信 开 展 针对 用 户 消费 的 大 数据 分 析 评 估 ,借助 大 数据 改善 服务 水 平 , 提 
升 用 户 体验 。 比 如 某 段 网 络 上 的 掉 话 率 持续 过 高 ,法 国电 信 借 助 大 数据 手段 诊断 出 通话 中 
断 产生 的 原因 是 网 络 负荷 过 重 , 并 根据 分 析 结果 优化 网 络 布局 ,为 客户 提供 了 更 好 的 体验 ， 
获得 了 更 多 的 客户 以 及 业务 增长 ; T-Mobile 采用 Informant 平台 开展 大 数据 工作 ,通过 集 





成 数据 综合 分 析 客户 流失 的 原因 ,在 一 个 季度 内 将 流失 率 减 半 ; SK 电讯 新 成 立 一 家 公司 
SK Planet ,专门 处 理 与 大 数据 相关 的 业务 ,通过 分 析 用 户 的 使 用 行为 ,在 用 户 作出 决定 之 
前 ,推出 符合 用 户 兴 趣 的 业务 ,防止 用 户 流失 。 

德国 电信 是 欧洲 最 大 的 电信 和 运营 商 , 全 球 第 五 大 电信 运营 商 。 旗 下 T-Systems 是 全 球 
领先 的 ICT 解决 方案 和 服务 供应 商 。 正 是 T-Systems 将 德国 电信 带 上 了 大 数据 的 发 展 快 
车 道 。 基 于 拥有 全 球 12 万 平方 米 数据 中 心 的 优势 ,T-Systems 提出 了 “智能 网 络 ” 的 概念 。 
通过 实时 获得 汽车 、 医 疗 以 及 能 源 企业 的 数据 ,T-Systems 先后 开发 了 车 载 互 联网 导航 系 
统 、 交 通 意外 自动 呼叫 系统 、 声 控 电 邮 系 统 ,以 及 能 源 网 开发 解决 方案 ,实现 电量 的 供需 平 
衡 。 此 外 , 它 还 通过 设计 安全 的 传输 方式 和 便捷 的 解决 方案 ,将 医生 和 患者 对 接 , 提 供 整 合 
的 医疗 解决 方案 。 

案例 12-26 ”中 国电 信 大 数据 聚焦 商业 模式 

在 大 数据 领域 探索 中 , 相 较 于 其 他 企业 ,电信 运营 商 由 于 在 数据 资源 、 基 础 资源 \ 平 台 资 
源 上 拥有 先天 优势 ,因此 对 于 大 数据 的 探索 更 为 深入 。 中 国电 信和 提出 了 大 数据 发 展 思路 ,并 
以 综合 平台 、 智 能 管道 为 依托 ,以 丰富 大 数据 为 基础 ,聚焦 重点 大 数据 应 用 ,特别 是 聚合 更 有 
价值 的 四 大 大 数据 商业 应 用 模式 ,依托 自身 核心 业务 ,以 实现 利润 最 大 化 。 中 国电 信 最 有 价 
值 的 大 数据 应 用 表现 在 四 方面 ,分 别 是 语音 数据 分 析 、 视 频数 据 分析 、 网 络 流量 分 析 、 位 置 数 
据 分 析 。 第 一 ,利用 大 数据 处 理 平台 分 析 呼 叫 中 心 海量 语音 数据 ,建立 呼叫 中 心 测评 体系 和 
产品 关联 分 析 ,可 为 如 保险 公司 等 提供 基于 自动 语音 识别 的 大 数据 分 析 系 统 ; 第 二 ,基于 智 
能 图 像 分 析 能 力 的 视频 索引 、 搜 索 、 摘 要 服务 ,从 海量 视频 挖掘 有 价值 的 视频 信息 ,提供 公用 
视频 图 像 分 析 ,中 国电 信 全 球 眼 智 能 系统 在 智慧 城市 ,平安 社区 、 交 通 监管 等 领域 大 规模 的 
使 用 ; 第 三 ,通过 分 析 互 联网 流量 及 协议 信息 ,对 一 般 性 网 络 使 用 者 的 行为 习惯 分 群 组 提供 
有 针对 性 的 网 络 便利 性 服务 ,如 精准 广告 ; 第 四 ,通过 LBS 系统 平台 ,对 移动 通信 使 用 者 的 
位 置 和 运动 轨迹 进行 分 析 , 实 现 热点 地 区 的 人 群 频率 的 概率 性 有 效 统计 ,如 根据 景区 人 流 进 
行 基站 优化 。 
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12.9.1 大 数据 精准 营销 


大 数据 精准 营销 以 大 数据 将 消费 者 的 消费 喜好 精准 定位 ,帮助 公司 定位 目标 客户 群 ,使 
营销 精准 、 高 效 。 主 要 应 用 方面 如 下 : 

(1) 通过 大 数据 分 析 用 户 行为 与 特征 。 显 然 , 只 有 积累 足够 的 用 户 数据 ,才能 分 析出 用 
户 的 喜好 与 购买 习惯 ,做 到 “ 比 用 户 更 了 解 自己 ”。 这 是 大 数据 营销 的 前 提 与 出 发 点 。 

(2) 通过 大 数据 支撑 精准 营销 信息 推送 。 基 于 大 数据 支撑 、 用 户 特征 数据 支撑 及 详细 
准确 的 分 析 , 现 在 的 RTB 广告 的 应 用 向 人 们 展示 了 比 以 前 更 好 的 精准 性 。 

(3) 通过 大 数据 让 营销 活动 更 能 投 用 户 所 好 。 如 果 能 在 产品 生产 之 前 了 解 潜在 用 户 的 
主要 特征 ,以 及 他 们 对 产品 的 期 待 ,那么 生产 的 产品 即 可 投 其 所 好 。 

(4) 通过 大 数据 帮助 企业 筛选 重点 客户 。 从 用 户 访问 的 各 种 网 站 可 判断 其 最 近 关 心 的 
东西 是 否 与 本 企业 相关 。 从 用 户 在 社会 化 媒体 上 所 发 布 的 各 类 内 容 及 与 他 人 互动 的 内 容 


第 12 章 
PE 这 仁 过 六 生 的 汪汪 光合 二 下 让 全 凑 汪 二 大 部 据 挖 握 应 用 案例 @ 涩 


中 , 找 出 潜在 信息 ,利用 某 种 规则 关联 及 综合 起 来 ,帮助 企业 筛选 重点 的 目标 用 户 ,在 企业 的 
用 户 、 好 友 与 粉丝 中 发 现 最 有 价值 的 用 户 。 

(5) 通过 大 数据 分 析 更 加 清晰 本 企业 产品 的 消费 者 的 特点 。 大 数据 可 以 分 析 活 跃 粉丝 
的 互动 内 容 , 设 定 消费 者 画像 各 种 规则 ,关联 潜在 用 户 与 会 员 数据 ,关联 潜在 用 户 与 客服 数 
据 , 筛 选 目标 群体 做 精准 营销 ， 


12.9.2 精准 营销 大 数据 应 用 案例 


案例 12-27 农夫 山泉 运用 大 数据 卖 矿泉 水 

农夫 山泉 在 全 国有 10000 个 业务 员 , 每 个 业务 员 每 天 按照 规定 必须 对 营销 点 的 照片 传 
回 总 部 ,每 个 业务 员 , 每 天 会 产生 的 数据 量 在 10MB, 数 据 就 是 100GB, 每 月 为 3TB。 当 这 些 
图 片 如 雪 片 般 进入 农夫 山泉 在 杭州 的 机 房 时 ,怎样 摆 放 水 堆 更 能 促进 销售 ? 什么 年 龄 的 消 
费 者 在 水 堆 前 停留 更 久 , 他 们 一 次 购买 的 量 多 大 ? 气温 的 变化 让 消费 者 的 购买 行为 发 生 了 
哪些 改变 ? 竞争 对 手 的 新 包装 对 销售 产生 了 怎样 的 影响 ? 基于 上 述 场景 ,SAP 团队 和 农夫 
山泉 团队 开始 了 场景 开发 ,他 们 将 很 多 数据 纳入 系统 : 高 速 公路 的 收费 、 道 路 等 级 、 天 气 、 配 
送 中 心 辐射 半径 、 季 节 性 变化 ,不 同市 场 的 售 价 不 同 渠道 的 费用 、 各 地 的 人 力 成 本 、 突 发 性 
的 需求 。 在 采购 仓储、 配送 这 条 线 上 ,农夫 山泉 运用 大 数据 获取 解决 生产 和 销售 的 不 平衡 
问题 ,形成 一 个 动态 网 状 结构 ,并 让 退货 . 残 次 等 问题 与 生产 基地 能 够 实时 连接 起 来 。 有 了 
强大 的 数据 分 析 能 力 做 支撑 后 ,农夫 山泉 运用 大 数据 平台 将 销售 ,市场 费用 ,物流 .生产 、 财 
务 联系 在 一 起 形成 一 份 有 价值 的 统计 报告 ,依靠 数据 而 不 是 经 验 来 验证 决策 的 正确 性 。 这 
使 得 农夫 山泉 有 了 30 儿 一 40 色 的 年 增长 率 , 几 乎 平 了 康师傅 、 娃 哈哈 .可口 可 乐 冰 露 市 场 份 
额 之 和 。 

案例 12-28 ” 哆 啦 宝 打造 精准 营销 平台 

哆 啦 宝 是 一 款 针对 餐饮 行业 的 “支付 十 营销 ?智能 02O 支付 营销 解决 方案 。 通 过 升级 、 
更 新 现 有 收 单 系统 到 智能 收 单 系统 ,提供 在 交易 基础 上 的 营销 服务 ,为 商家 带 来 支付 与 营销 
双重 解决 方案 。 

哆 啦 宝 集 硬 件 智慧 营销 终端 POS、 软 件 会 员 营 销 解 决 方案 、 商 户 网 络 营 销 平台 以 及 社 
会 化 媒体 营销 平台 于 一 体 的 效果 营销 解决 方案 ,掀起 线 下 支付 营销 按 效果 付费 的 风潮 ,帮助 
企业 一 起 挖掘 “消费 后 市 场 ”。O20 让 互联 网 成 为 线 下 交易 的 前 台 , 而 且 推广 效果 可 查 , 每 
笔 交易 可 跟踪 。O20 即 Online to Offline( 在 线 离线 / 线 上 到 线 下 ) ,是 指 将 线 下 的 商务 机 会 
与 互联 网 结合 ,让 互联 网 成 为 线 下 交易 的 平台 , 线 上 、 线 下 一 旦 连 起 来 ,就 会 形成 巨大 的 爆发 
式 力 量 。0O20O 的 核心 在 于 支付 ,支付 不 仅 是 支付 本 身 的 完成 ,是 某 次 消费 得 以 最 终 形成 的 
唯一 标志 ,更 是 消费 数据 唯一 可 靠 的 考核 标准 。 在 以 提供 服务 性 消费 为 主 , 上 且 不 以 广告 收入 
为 盈利 模式 的 020 中 ,在 线 支付 更 是 举足轻重 。 

竞争 加 剧 和 央行 限制 性 政策 ,使 得 传统 POS 收 单 完全 沦 为 管道 化 ,而 移动 互联 网 基于 
开放 平台 Android, iOS 的 软件 硬件 ,使 得 智慧 POS 成 为 可 能 。020 市 场 的 形成 , 需要 全 
新 的 智能 收 单 十 营销 解决 方案 ,而 哆 啦 宝 定位 消费 后 市 场 ,开创 了 新 的 商业 模式 。 

案例 12-29 ”基于 大 数据 的 京东 精准 邮件 营销 

好 的 邮件 营销 就 是 要 完美 解决 一 个 3W 的 问题 , 即 在 什么 时 间 (When) 把 什么 内 容 
(What) 发 给 什么 人 (Who) 。 如 果 要 解决 这 个 问题 ,就 要 很 清楚 地 了 解 用 户 的 情况 .用 户 的 








个 人 喜好 。 通 过 大 数据 挖掘 技术 的 支持 ,基于 用 户 在 京东 的 一 切 行为 (行为 背后 是 一 系列 的 
数据 ) ,包括 搜索 .浏览 点击, 咨询 ` 加 关注 、` 放 购物 车 .下 单 `. 地 址 等 一 系列 数据 ,在 这 些 数据 
的 基础 上 进行 建 模 分 析 , 然 后 得 出 每 个 用 户 的 情况 ,例如 性 别 、 年 龄 . 婚 和 否 . 是 否 有 孩子 、 孩 子 
的 性 别 . 是 否 有 房子 .是 否 有 车 喜欢 什么 品牌 等 ,就 比较 容易 定位 到 每 个 用 户 的 喜好 。 然 后 
再 抽象 出 各 种 场景 ,基于 每 个 场景 制定 不 同 的 邮件 策略 ,并 进行 相应 的 邮件 推送 业务 。 基 于 
大 数据 ,京东 搭建 了 精准 营销 架构 ,架构 底层 是 明细 数据 ,包括 用 户 产生 的 各 种 日 志 数 据 、 用 
户 交易 数据 和 其 他 相关 数据 ,在 用 户 数据 的 基础 上 ,进行 了 用 户 行为 的 建 模 ,包括 用 户 属性 
的 识别 .用 户 兴 趣 模型 ,用户 关系 模型 ,用户 生命 周期 .用户 信 用 模型 等 ; 在 用 户 建 模 之 上 ， 
抽象 出 用 户 画 像 , 作 为 底层 数据 供应 给 各 营销 系统 。 任 何 邮 件 运营 人 员 都 可 以 很 方便 地 筛 
选 出 精准 的 目标 用 户 , 邮 件 内 容 的 设置 上 也 更 多 样 化 ,更 重要 的 是 用 户 体验 得 到 了 极 大 提 
升 。 在 基于 大 数据 做 了 很 多 场景 的 自动 触发 邮件 策略 之 后 ,京东 的 邮件 也 开始 变 得 智能 起 
来 。 这 个 架构 解决 的 不 仅 是 京东 邮件 精准 营销 的 问题 ,还 同时 解决 了 所 有 主动 推送 的 短信 、 
APP PUSH ,站 内 信 等 的 精准 营销 问题 。 


12.9.3 基于 大 数据 的 中 文 与 情 分 析 案 例 


1. 互联 网 与 情 分 析 

移动 互联 、 社 交 网 络 、 电 子 商务 等 极 大 拓展 了 互联 网 的 边界 和 应 用 范围 ,互联 网 (社交 、 
搜索 、 电 商 ) ,移动 互联 网 ( 微 博 ) 、 物 联网 (传感器 、 智 慧 地 球 ) 、 车 联网 .GPS、 医 学 影像 ,安全 
监控 ,金融 (银行 、 股 市, 保险)、 电 信和 (通话 ,短信 ) 都 在 疯狂 产生 着 数据 。 社 交 媒 体 时 代 , 通 过 
互联 网 平台 可 表达 社情 民意 ,体现 用 户 的 意愿 ,评论 和 态度 。 和 与 情 , 就 是 一 个 风向 标 。 和 与 情 
分 析 , 就 是 针对 民众 态度 的 收集 和 整理 ,发 现 相关 的 意见 倾向 ,客观 反映 和 与 情 状态 。 海 量 的 
数据 隐 含 着 巨大 的 信息 ,如 何 从 这 些 可 观 的 数据 中 分 析出 用 户 的 潜在 且 准 确 的 购物 意愿 及 
用 户 需求 ,将 成 为 提高 品牌 价值 和 声誉 ,改善 用 户 体验 的 新 途径 。 

例如 ,亚马逊 上 的 用 户 对 某 商品 的 评论 ,商家 可 以 根据 用 户 的 评论 和 反馈 为 用 户 提 供 定 
制 性 的 服务 ,甚至 可 以 预测 用 户 的 需求 ,从 而 达到 更 加 准确 的 销售 目的 。 又 如 ,新浪 微 博 上 
粉丝 过 万 的 大 型 零售 商 可 以 根据 用 户 发 表 的 微 博 \ 微 话题 .签到 地 点 为 用 户 定制 性 的 推送 优 
惠及 新 品 信 息 。 这 些 看 似 庞大 无 规则 的 数据 ,包含 着 大 量 的 用 户 标 签 及 潜在 的 用 户 肖 像 。 
其 中 ,存储 与 分 析 中 文 文本 数据 也 是 技术 上 的 关键 ,如 何 能 够 存储 并 分 析 海 量 数据 ,生成 精 
确 的 用 户 标 签 ,依赖 于 数据 存储 系统 和 文本 分 析 系 统 的 技术 。 

2. 营销 分 析 逻 辑 流 程 

微 博 是 现代 网 络 社会 沟通 的 重要 工具 。 以 新 浪 微 博 为 例 , 很 多 大 型 零售 商会 建立 自己 
的 主页 ,发布 近期 的 打折 、 新 品 信 息 。 但 是 ,这 些 信息 往 往 不 能 针对 每 个 用 户 的 喜好 来 发 布 ， 
类 似 于 广播 一 样 , 每 一 条 微 博 是 否 对 每 个 粉丝 (用 户 ) 有 意义 ,需要 用 户 自己 来 过 滤 。 

但 实际 上 ,粉丝 自身 发 布 的 微 博 含有 大 量 的 数据 信息 ,这 些 信息 包括 用 户 的 个 人 爱好 \ 年 龄 
段 . 近 期 想 购买 的 款式 ,甚至 是 自己 希望 有 的 款式 和 功能 等 。 这 些 数 据 大 多 数 为 非 结 构 数据 。 

如 图 12-13 所 示 ,显示 了 整个 营销 分 析 流 程 的 逻辑 。 从 客户 发 布 微 博 开 始 , 到 商家 向 用 
户 发 布 商品 目录 和 优惠 信息 ,整个 流程 分 为 五 个 步骤 。 

(1) 客户 发 布 微 博 。 从 微 博 上 初步 获取 的 数据 为 “ 粗 数 据 ”, 虽 然 数据 杂乱 需要 分 析 , 但 
是 其 中 包含 很 多 用 户 自 己 “ 无 意识 ”的 为 自己 打上 的 标签 ,这 为 后 续 的 语义 分 析 打 下 了 基础 。 


第 12 章 
| 大 数据 挖掘 应 用 案例 [3 





四 2013IBM Copontia 


图 12-13 营销 分 析 逻 辑 流程 


粗 数 据 中 包括 类 似 于 性 格 \ 年 龄 阶段 .星座 、 性 别 、 突 出 喜好 等 信息 ,如 “粉红 控 ”80 后 ”“ 篮 
球 达 人 ?等 。 掌 握 这 些 用 户 自 定义 的 标签 后 ,把 这 些 作 为 用 户 肖像 的 一 部 分 。 

(2) 获取 商家 的 粉丝 。 商 家 的 粉丝 包括 关注 商家 微 博 的 用 户 、 签 到 用 户 、 被 提 及 的 品牌 
粉丝 等 。 这 些 粉 丝 发 布 的 微 博 便 作为 语义 处 理 的 输入 。 

(3) 分 析 用 户 的 微 博 。 将 用 户 的 微 博 进行 语义 分 析 。 基 于 Hadoop 的 文本 分 析 平 台 
对 中 文 进行 分 词 ,分 词 后 将 与 字典 进行 比较 和 分 类 ,然后 对 比 总 结 出 该 用 户 的 兴趣 爱好 所 
在 ,作为 用 户 的 一 个 标签 ,同时 作为 客户 肖像 的 一 部 分 。 例 如 ,一 个 用 户 的 微 博 中 经 常 提 到 
类 似 于 篮球 、 足 球 等 运动 ,那么 “ 爱 运动 "就 极 可 能 成 为 其 标签 ,作为 客户 肖像 的 一 部 分 。 

(4) 指定 相关 营销 策略 : 客户 肖像 制定 后 , 存 入 数据 库 , 并 根据 微 博 内 容 实时 或 定时 更 
新 客户 肖像 ,根据 客户 的 肖像 向 用 户 推 送 相应 的 商品 打折 优惠 、 最 新 上 架 产 品 信 息 。 例 如 ， 
用 户 的 爱好 中 包括 “运动 ”, 并 在 微 博 中 提 到 某 品牌 的 运动 鞋 , 那 么 可 以 向 该 用 户 推送 该 运动 
品牌 的 打折 优惠 信息 或 优惠 券 。 

(5) 消费 者 可 使 用 消费 券 或 根据 打折 信息 购买 相关 产品 。 这 样 向 用 户 推送 的 促销 信息 
会 更 加 符合 用 户 近 期 的 购买 意愿 和 用 户 的 个 性 特征 ,可 以 做 到 为 每 个 用 户 个 性 定制 的 营销 
方案 ,使 推送 更 有 效 。 


1210 教育 领域 大 数据 应 用 案例 


12. 10.1 教育 领域 大 数据 应 用 


教育 大 数据 分 布 在 包括 教育 教学 管理 .教学 资源 ,教学 行为 .教学 评估 等 在 内 综合 教育 
系统 的 始末 。 大 数据 的 思维 和 理念 可 以 为 优化 教育 政策 、 创 新 教育 教学 模式 、 变 革 教 育 测量 


与 评价 方法 等 理论 研究 提供 客观 依据 以 及 新 的 研究 视角 ,能 够 更 好 地 推动 教育 领域 的 变革 。 

(1)“ 大 数据 资源 ”成 为 重要 的 教育 资源 。 教 学 资源 的 数字 化 、 信 息 化 ,网络 化 ,使 得 教 
育 资 源 在 大 数据 时 代 实 现 资源 共享 成 为 可 能 ,包括 网 上 教研 系统 、 网 络 备课 系 统 、 教 师 学 习 
中 心 系 统 、 教 师 评价 系统 、 资 源 管 理 与 应 用 系统 、 视 频 点 播 系 统 、 远 程 网 络 教学 系统 等 。 大 数 
据 教育 资源 可 实现 一 站 式 教学 信息 平台 ,学 生 在 学 习 公 共 服 务 平台 上 ,通过 网 络 课堂 .自主 
学 习 系统 .互动 交流 系统 等 实现 远程 学 习 、 移 动 学 习 。 

(2)“ 大 数据 应 用 ”促进 教育 变革 。 从 传统 教育 到 “因材施教 “量体裁衣 ”, 大 数据 可 以 
支持 学 习 者 的 个 性 学 习 , 大 数据 的 分 析 可 以 反映 每 一 个 学 习 者 的 学 习 需 求 、 学 习 风 格 、 学 习 
态度 乃至 学 习 模 式 等 信息 ,进而 能 够 为 每 一 位 学 习 者 创设 一 个 量 身 定 做 的 学 习 环 境 和 个 性 
化 的 课程 ,促进 其 个 性 发 展 ,从 而 实现 真正 意义 上 的 个 性 化 教育 。 大 数据 技术 可 以 在 教育 平 
台 上 跟踪 和 关注 老师 与 学 生 的 教学 学习 过 程 ,记录 老师 和 学 生 的 课堂 表现 以 及 课 下 行为 的 
数字 化 痕迹 ,通过 在 教育 活动 中 点 滴 微观 行为 的 捕捉 ,为 教育 管理 机 构 学校. 老师 和 家 长 提 
供 最 直接 、 客 观 \ 准 确 的 教育 结果 评价 等 。 用 大 数据 可 以 追踪 每 一 个 学 生 在 校 时 、 毕 业 后 \ 工 
作 后 的 成 长 情况 ,通过 长 期 对 数据 的 积累 和 分 析 , 可 以 对 学 生 进行 生涯 规划 教育 ,为 学 生 更 
好 地 实现 人 生成 长 提供 更 好 的 帮助 。 

(3)“ 大 数据 应 用 ”促进 教育 方式 的 改变 。 

诸如 一 对 一 数字 化 学 习 、 翻 转 课堂 . 慕 课 、 微 课 等 新 型 的 教育 教学 形态 层出不穷 ,让 基于 
新 技术 手段 打造 的 “大 规模 在 线 开 放 课 程 ? 成 为 社会 和 教育 领域 关注 的 热点 。 在 教育 学 习 领 
域 ,大 数据 中 提取 价值 的 5 种 主要 的 技术 如 下 : 

QO 预测 (Prediction) 一 一 觉 知 预料 中 的 事实 的 可 能 性 。 例 如 ,要 具备 知道 一 个 学 生 在 
什么 情况 下 尽管 事实 上 有 能 力 但 却 有 意 回答 错误 的 能 力 。 

@ 聚 类 (Clustering) 一 一 发 现 自 然 集中 起 来 的 数据 点 。 这 对 于 把 有 相同 学 习 兴 趣 的 学 
生 分 在 一 组 很 有 用 。 

@ 相关 性 挖掘 (Relationship Mining) 一 一 发 现 各 种 变量 之 间 的 关系 ,并 对 其 进行 解码 ,以 
便 今后 使 用 它们 。 这 对 探知 学 生 在 寻求 帮助 后 是 否 能 够 正确 回答 问题 的 可 靠 性 很 有 帮助 。 

@ 升华 人 的 判断 (Distillation for Human Judgment) 一 一 建立 可 视 的 机 器 学 习 模 式 。 

@ 用 模式 进行 发 现 (Discovery with Models) 使 用 通过 大 数据 分 析 开 发 出 的 模式 
进行 “元 学 习 ”(Meta-study)。 


12.10.2 教育 大 数据 应 用 案例 


案例 12-30 ”利用 预测 分 析 大 数据 帮助 学 生 提 高 成 绩 

“ 希 维 塔 斯 学 习 ”(Civitas Learning) 是 一 家 专门 聚焦 于 运用 预测 性 分 析 、 机 器 学 习 来 提 
高 学 生成 绩 的 年 轻 公 司 。 它 提供 了 一 套 应 用 程序 ,学 生 和 老师 可 以 在 其 中 规划 自己 的 课程 
和 安排 。“ 希 维 塔 斯 学 习 ” 的 各 种 基于 云 的 智能 手机 第 三 方 应 用 程序 (APP) 都 是 用 户 友 好 型 
的 ,能 够 根据 高 校 的 需要 个 性 化 定制 。 这 意味 着 高 校 能 聚焦 于 各 自 不 同 的 对 象 ,相互 不 同 地 
用 这 家 公司 的 分 析 工 具 开 展 大 数据 工作 。 

该 公司 在 高 等 教育 领域 建立 起 最 大 的 跨 校 学 习 数 据 库 。 通 过 这 些 海 量 数据 ,能 够 看 到 
学 生 的 分 数 、 出 勤 率 ,辍学 率 和 保留 率 的 主要 趋势 。 通 过 使 用 100 多 万 名 学 生 的 相关 记录 和 
700 万 个 课程 记录 ,这 家 公司 的 软件 能 够 让 用 户 探 测 性 地 知道 导致 辍学 和 学 习 成 绩 表现 不 
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良 的 警告 性 信号 。 此 外 ,还 允许 用 户 发 现 那些 导致 无 谓 消耗 的 特定 课程 ,并 且 看 出 哪些 资源 
和 干预 是 最 成 功 的 。 

案例 12-31 培 生 集团 应 用 大 数据 技术 全 程 实时 分 析 学 生 学 习 进 度 

以 培 生 集团 最 新 出 版 的 全 球 少儿 美语 旗舰 课程 Big English 为 例 ,这 套 课程 引入 了 首 款 
应 用 于 少儿 英语 学 习 领 域 的 My English Lab 在 线 学 习 辅 导 系 统 ( 以 下 简称 MEL), 应 用 大 
数据 技术 全 程 实时 分 析 学 生 个 体 和 班级 整体 的 学 习 进 度 、 学 情 反 馈 和 阶段 性 成 果 , 从 而 及 时 
找到 问题 所 在 ,对 症 下药 , 实 现 对 学 习 过 程 和 结果 的 动态 管理 。 

Big English 的 大 数据 分 析 系 统 以 学 生 为 中 心 ,按照 教 、 学 、 测 三 个 环节 组 织 线 上 学 习 内 
容 与 学 习 过 程 ,将 学 生 、 教 师 、 家 长 .机构 四 类 用 户 群 有 机 整合 在 MEL 学 习 管 理 系 统 中 ,各 
司 其 职 ,相互 作用 ,实现 了 个 性 化 的 课堂 教学 、 家 庭 辅导 和 自主 学 习 管理 环境 。 

案例 12-32 ”大 数据 让 在 线 教育 变 为 现实 

大 数据 在 教育 上 的 应 用 首 推 在 线 教育 ,如 中 小 学 教育 资源 共享 平台 梯子 网 。 梯 子 网 的 
一 大 特色 是 基于 大 数据 的 模式 创新 。 通 过 数据 分 析 , 可 以 优化 学 生 做 题 效率 ,减轻 学 生 课业 
负担 。 具 体 来 说 ,就 是 将 梯子 网 目前 拥有 的 一 千 多 万 道 题目 按照 教材 版 本 、 章 节 、 知 识 点 , 难 











易 程度 、 考 试 比重 等 多 重 属性 精确 定位 ,再 根据 学 生 们 做 题 时 的 正确 率 ,向 水 平 不 同 、 知 识 
弱点 不 同 的 学 生 推 





在 在 线 教 育 领域 ,主打 公务 员 考 试 司法 考试 等 成 人 职业 资格 考试 的 * 猿 题库 ”同样 将 大 
数据 作为 自己 的 卖点 。“ 猿 题库 "的 大 数据 处 理 主要 基于 两 个 方面 ,一 是 对 用 户 本 身 的 数据 
分 析 , 通 过 实时 测量 和 评估 用 户 的 练习 情况 ,对 用 户 在 某 个 时 间 点 的 能 力 值 有 所 掌握 ; 二 
是 有 一 个 准确 难度 分 布 的 题目 库 。 通 过 这 些 数据 分 析 , 猿 题库 也 推出 了 被 称 为 智能 练 
习 ” 的 产品 ,通过 匹配 答题 情况 和 考试 要 求 ,向 学 生 推 荐 需要 强化 的 题目 类 型 ,同时 还 将 
学 生 整 个 答题 过 程 记录 下 来 ,实时 评估 他 的 能 力 变 化 ,以 报告 的 形式 告诉 学 生 其 能 力 增 
长 曲线 。 

明确 的 商业 模式 让 在 线 教育 中 的 大 数据 应 用 最 为 成 熟 ,通过 教学 数据 的 整合 和 共享 ,从 
而 帮助 不 同 地 区 之 间 能 够 共享 教育 资源 。 

案例 12-33 ”无 孔 不 入 的 数字 化 学 习 平台 

数字 时 代 的 来 临 ,为 知识 与 文化 的 传播 开创 了 前 所 未 有 的 历史 阶段 ,也 为 高 等 教育 教学 
带 来 了 惊喜 与 震撼 。 尤 其 是 数字 化 教学 资源 在 教学 中 的 运用 ,不 仅 给 各 学 科 的 教育 教学 提 
供 了 空前 的 便利 与 支持 ,也 给 教 与 学 带 来 了 革命 性 的 意义 。 网 上 教学 不 仅仅 是 将 教学 材料 
在 网 上 发 布 ,更 多 的 是 学 生 与 教师 之 间 、 学 生 与 学 生 之 间 的 充分 沟通 与 交流 。 由 于 远程 教学 
时 教师 与 学 生 在 空间 上 的 分 离 ,这 种 沟通 与 交流 就 显得 尤为 重要 。 另 外 ,传统 教学 过 程 中 一 
些 保证 教学 质量 的 关键 环节 (如 作业 考试 .图 书馆 、 笔 记 记 录 等 ) ,都 能 够 在 网 上 得 到 很 好 
的 支持 。 网 上 的 教学 支持 平台 ,为 教师 在 网 上 实施 教学 提供 全 面 的 工具 支持 ,屏蔽 程序 
设计 的 复杂 性 ,使 得 教师 能 够 集中 精力 于 教学 ,也 使 得 网 上 教学 从 简单 的 教学 信息 发 布 
变 成 一 个 充满 交互 与 交流 的 虚拟 学 习 社 区 。 一 个 完整 的 网 络 教学 平台 由 网 上 教学 支持 
系统 、 网 上 教务 管理 系统 、 网 上 课程 开发 工具 和 网 上 教学 资源 管理 系统 四 个 子 系统 组 成 。 
网 络 教学 支持 平台 是 建立 在 通用 的 Internet/Intranet 基础 上 的 ,专门 为 基于 双向 多 媒体 通 
信和 网 络 的 远程 教学 而 提供 全 面 服务 的 软件 系统 ,在 丰富 的 学 科 资 源 的 基础 上 ,学 科教 师 
根据 教学 要 求 与 教学 计划 ,并 根据 自己 的 教学 特色 ,开发 网 络 教学 课件 ,借助 网 络 教学 的 
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良 的 警告 性 信号 。 此 外 ,还 允许 用 户 发 现 那些 导致 无 谓 消耗 的 特定 课程 ,并 且 看 出 哪些 资源 
和 干预 是 最 成 功 的 。 
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以 培 生 集团 最 新 出 版 的 全 球 少儿 美语 旗舰 课程 Big English 为 例 ,这 套 课程 引入 了 首 款 
应 用 于 少儿 英语 学 习 领 域 的 My English Lab 在 线 学 习 辅 导 系 统 ( 以 下 简称 MEL), 应 用 大 
数据 技术 全 程 实时 分 析 学 生 个 体 和 班级 整体 的 学 习 进 度 、 学 情 反 馈 和 阶段 性 成 果 , 从 而 及 时 
找到 问题 所 在 ,对 症 下药 , 实 现 对 学 习 过 程 和 结果 的 动态 管理 。 

Big English 的 大 数据 分 析 系 统 以 学 生 为 中 心 ,按照 教 、 学 、 测 三 个 环节 组 织 线 上 学 习 内 
容 与 学 习 过 程 ,将 学 生 、 教 师 、 家 长 .机构 四 类 用 户 群 有 机 整合 在 MEL 学 习 管 理 系 统 中 ,各 
司 其 职 ,相互 作用 ,实现 了 个 性 化 的 课堂 教学 、 家 庭 辅导 和 自主 学 习 管理 环境 。 

案例 12-32 ”大 数据 让 在 线 教育 变 为 现实 

大 数据 在 教育 上 的 应 用 首 推 在 线 教育 ,如 中 小 学 教育 资源 共享 平台 梯子 网 。 梯 子 网 的 
一 大 特色 是 基于 大 数据 的 模式 创新 。 通 过 数据 分 析 , 可 以 优化 学 生 做 题 效率 ,减轻 学 生 课业 
负担 。 具 体 来 说 ,就 是 将 梯子 网 目前 拥有 的 一 千 多 万 道 题目 按照 教材 版 本 、 章 节 、 知 识 点 , 难 
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数字 时 代 的 来 临 ,为 知识 与 文化 的 传播 开创 了 前 所 未 有 的 历史 阶段 ,也 为 高 等 教育 教学 
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在 网 上 发 布 ,更 多 的 是 学 生 与 教师 之 间 、 学 生 与 学 生 之 间 的 充分 沟通 与 交流 。 由 于 远程 教学 
时 教师 与 学 生 在 空间 上 的 分 离 ,这 种 沟通 与 交流 就 显得 尤为 重要 。 另 外 ,传统 教学 过 程 中 一 
些 保证 教学 质量 的 关键 环节 (如 作业 考试 .图 书馆 、 笔 记 记 录 等 ) ,都 能 够 在 网 上 得 到 很 好 
的 支持 。 网 上 的 教学 支持 平台 ,为 教师 在 网 上 实施 教学 提供 全 面 的 工具 支持 ,屏蔽 程序 
设计 的 复杂 性 ,使 得 教师 能 够 集中 精力 于 教学 ,也 使 得 网 上 教学 从 简单 的 教学 信息 发 布 
变 成 一 个 充满 交互 与 交流 的 虚拟 学 习 社 区 。 一 个 完整 的 网 络 教学 平台 由 网 上 教学 支持 
系统 、 网 上 教务 管理 系统 、 网 上 课程 开发 工具 和 网 上 教学 资源 管理 系统 四 个 子 系统 组 成 。 
网 络 教学 支持 平台 是 建立 在 通用 的 Internet/Intranet 基础 上 的 ,专门 为 基于 双向 多 媒体 通 
信和 网 络 的 远程 教学 而 提供 全 面 服务 的 软件 系统 ,在 丰富 的 学 科 资 源 的 基础 上 ,学 科教 师 
根据 教学 要 求 与 教学 计划 ,并 根据 自己 的 教学 特色 ,开发 网 络 教学 课件 ,借助 网 络 教学 的 





一 些 支 持 工 具 ,开展 双 向 的 远程 教学 ,教学 管理 系统 可 以 保障 这 种 教学 更 加 高 效 , 也 更 加 
规范 化 。 


1211 互联 网 大 数据 应 用 


12.11.1 大 数据 使 生活 更 智能 


2008 年 全 球 新 增 数据 量 为 0. 49ZB, 到 2014 年 已 达到 4. 1ZB。 如 果 将 它们 等 同 于 音频 
文件 ,足以 连续 播放 80 亿 年 的 时 间 。 截 至 2015 年 6 月 ,我 国 网 民 规 模 达 6. 68 亿 , 半 年 共计 
新 增 网 民 1894 万 人 。 一 分 钟 内 , 微 博 推 特 上 新 发 的 数据 量 超过 10 万 。 互 联网 普及 率 为 
48.8%。 我 国 网 站 总 数 为 357 万 个 ,半年 增长 6. 6%。 网 上 炒股 的 用 户 规模 达到 5628 万 。 
整个 人 类 文明 所 获得 的 全 部 数据 中 ,有 90% 是 过 去 两 年 内 产生 的 。 互 联网 大 数据 包括 社交 
数据 、 金 融 交 易 数 据 、 地 理 位 置 相关 数据 、 全 网 的 图 片 、 视 频 、 文 档 等 数据 、 行业 数据 、 各 行业 
专属 数据 (如 优酷 的 视频 数据 、 淘 宝 与 京东 的 电 商 数据 等 ) 。 

在 生活 中 ,大 数据 的 应 用 发 展 迅 速 , 例 如 腾讯 用 微 信和 展开 大 数据 “首战 ”, 迅 雷 用 大 数据 
抓 “ 网 络 票房 "等 。 物 质 层 面 的 消费 需求 不 断 被 挖掘 ,电子 商务 ,本 地 生活 类 项 目 备 受热 氛 之 
后 ,精神 层面 的 消费 在 消费 整体 中 所 占 比例 逐渐 增加 。 二 次 元 、 亚 文化 、 网 红 经 济 迅 速 崛起 ， 
移动 领域 的 直播 、 短 视频 也 逐渐 占据 年 轻 人 的 社交 版 图 ,大 数据 在 娱乐 领域 得 到 很 好 的 
发 展 。 


12.11.2 互联 网 大 数据 应 用 案例 


案例 12-34 PPTYV 聚 力 个 性 化 用 户 体 验 

细心 的 PPTV 老 用 户 会 发 现 ,登录 后 均 可 看 到 “ 猜 你 喜欢 ”栏目 ,在 这 里 ,超过 35% 的 用 
户 都 能 找到 自己 喜欢 的 视频 ,不 会 在 浩瀚 的 视频 节目 里 不 知 所 措 ,缩短 了 视频 搜索 浏览 时 
间 ,大 幅 提升 了 用 户 体 验 。 大 数据 带 来 了 个 性 化 视频 推荐 用 户 体验 。 目 前 ,PPTV 聚 力 已 经 
建成 的 数 百 台 服 务 器 规模 的 Hadoop 集群 是 其 大 数据 技术 平台 的 核心 。 在 其 上 运行 着 
Hive 开源 数据 仓库 ,基于 Storm 的 分 布 式 实 时 数据 处 理 框架 也 已 经 开始 部 署 。 

到 2017 年 ,PPTYV 聚 力 全 平台 月 度 活路 用户 达 3.4 亿 , 每 天 的 活跃 用 户 超 5000 万 。 这 
一 在 线 视频 平台 目前 每 天 会 产生 10TB 数据 ,包含 用 户 行为 数据 ,访问 体验 数据 等 在 内 的 业 
务 数据 。 通 过 对 用 户 行为 数据 .工程 技术 数据 ,以 及 后 端的 业务 运营 数据 的 采集 ,形成 一 个 
全 新 的 数据 系统 格局 。 再 汇总 到 一 个 分 布 式 的 大 数据 技术 平台 上 ,通过 不 同 的 业务 角度 ,做 
业务 数据 分 析 ,以 及 各 种 数据 密集 性 的 计算 任务 。 而 后 应 用 到 各 个 不 同 的 业务 领域 ,以 此 达 
到 更 精准 ,更 流畅 的 视频 用 户 体验 。 其 中 ,用 户 行为 数据 主要 来 自从 客户 端 和 服务 器 端 采集 
的 日 志 数 据 。PPTYV 聚 力 计划 基于 大 数据 技术 开发 全 界面 的 用 户 访问 个 性 化 定制 系统 。 另 
外 ,PPTYV 聚 力 运用 大 数据 ,注重 广告 的 精准 投放 ,在 广告 的 定向 投放 、 频 次 控制 等 方面 相应 
建立 了 更 成 熟 的 策略 和 流程 ,打造 一 幅 智 能 个 性 化 用 户 体 验 全 新 蓝图 ,向 着 更 优越 的 用 户 体 
验 境界 进发 。 

案例 12-35 ”大 数据 助力 NBA 赛事 全 过 程 

当 汤普森 单 节 拿 下 37 分 之 后 ,他 成 为 NBA 在 一 节 比 赛 中 得 分 最 多 的 人 。 而 在 这 37 分 
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的 数据 统计 背后 ,是 NBA 数据 能 力 的 冰山 一 角 。 随 着 * 大 数据 ?在 NBA 联盟 运营 和 球 队 的 
发 展 方面 发 挥 出 越 来 越 突出 的 作用 ,大 家 也 开始 越 来 越 重 视 这 项 技术 和 理念 。NBA 领先 的 
大 数据 分 析 让 球员 更 具 商 业 价值 。 

一 场 NBA 比赛 共 四 节 , 常 规 时 间 计 48 分 钟 。 一 支 NBA 球 队 一 赛季 要 进行 82 场 常规 
赛 ,主客 场 各 41 场 ,而 后 东西 部 的 各 前 8 名 进入 季 后 赛 , 在 7 战 赛制 下 ,经 过 至 少 3 轮 12 场 
比赛 进入 决赛 。NBA 现在 共有 30 支 球 队 , 一 个 完整 的 正式 赛季 约 持续 5 个 月 ,共有 超过 
1200 场 比赛 。 

这 些 数 字 定 义 了 NBA 的 一 部 分 ,还 有 更 多 的 数据 使 得 NBA 成 为 一 项 越 来 越 受 大 众 欢 
迎 的 赛事 。 从 某 个 角度 而 言 , 它 的 本 质 就 是 数字 ,很 少 有 赛事 像 它 一 样 有 如 此 繁复 庞杂 的 数 
据 不 仅 是 球迷 ,媒体 看 得 到 的 得 分 助攻、 篮板 、 命 中 率 等 ,还 有 专栏 作家 们 津津 乐 道 的 
PER(The Player Efficiency Rating, 球 员 效 率 值 ), 将 场 上 球员 的 各 项 表现 通过 算法 公式 转 
化 为 综合 的 数值 ,现在 已 经 成 为 衡量 球员 水 平 的 重要 指标 之 一 。 

案例 12-36 《纸牌 屋 ) 变 革 传 统 电视 业 

近来 ,由 流 媒 体 视 频 网 站 奈 飞 公司 (Netflix) 推 出 的 “大 数据 定制 剧 兴 纸牌 屋 》 第 二 季 上 
线 播 出 ,获得 了 全 球 粉 丝 的 热情 追捧 。 

这 部 揭示 美国 政坛 内 幕 的 剧 作 引 发 了 学 界 和 业界 对 电视 业 未 来 发 展 的 热 议 。 它 的 成 功 
除了 及 时 贴近 美国 政坛 热点 话题 之 外 ,还 引领 了 电视 业 拥抱 * 融 媒 时 代 "” 的 变革 ,为 方兴未艾 
的 “互联 网 电视 "提供 了 范例 ,在 传媒 史上 留 下 浓墨重彩 的 一 笔 。“ 融 媒 ”, 即 不 同 媒体 的 形 
态 功能、 传播 手段 .组 织 结构 等 通过 融合 而 产生 的 “质变 ”效应 。 

首先 ,该 剧 对 传统 电视 业 * 制 播 分 离 ” 的 生产 模式 提出 挑战 。《 纸 牌 屋 》 不 是 由 制作 机 构 
进行 的 单纯 艺术 创作 ,而 是 基于 奈 飞 公司 网 站 储存 的 3000 万 用 户 收视 行为 的 大 数据 ,分 析 
了 网 民 的 “搜索 “收藏 习惯 后 制作 的 。 对 大 数据 进行 深度 挖掘 后 ,确定 了 最 具 熏 论 影响 力 
和 市 场 价值 的 主力 受众 群 ,根据 他 们 的 收视 行为 偏好 “ 量 身 定制 ”。 

其 次 ,该 剧 的 播 出 打破 了 以 往 由 电视 台 陆 续 推出 集 目的 传统 模式 ,采用 “一 次 观看 多 集 ” 
的 收视 模式 ,适应 互联 网 时 代 观 众 的 收视 习惯 。 

最 后 ,受众 的 深度 参与 。 借 助 大 数据 技术 ,受众 能 够 参与 到 电视 节目 的 制作 和 推广 等 各 
个 环节 。 该 剧 播 出 过 程 中 ,专业 技术 人 员 对 用 户 的 收视 行为 进行 实时 监测 和 数据 挖掘 ,帮助 
制作 团队 根据 受众 反馈 进行 相应 调整 和 修改 。 

《纸牌 屋 》 第 一 季 成 功 带 动 了 奈 飞 公司 网 站 的 业绩 。2013 年 第 一 季度 盈利 6. 38 亿美 
元 ,创下 历史 新 高 《纸牌 屋 》 的 成 功 预 示 着 “互联 网 电视 ?的 大 幕 已 经 拉 开 ,传统 电视 节目 从 
制作 、 推 广播 出 到 收看 等 各 个 环节 ,都 面临 着 彻底 的 颠覆 和 重 构 。 











1212 其 他 行业 大 数据 应 用 


12.12.1 能 源 业 大 数据 应 用 


能 源 行业 作为 国民 经 济 与 社会 发 展 的 基础 ,正在 受到 大 数据 的 深刻 影响 。 目 前 能 源 领 
域 的 大 数据 应 用 主要 有 4 个 方面 。 
(1) 促进 新 产品 开发 。 美 国 通用 公司 通过 每 秒 分 析 上 万 个 数据 点 ,融合 能 量 储存 和 先 





进 的 预测 算法 ,开发 出 能 灵活 操控 120m 长 叶片 的 2. 5-120 型 风机 ,并 无 颖 地 将 数据 传递 给 
邻近 的 风机 、 服 务 技术 人 员 和 顾客 ,效率 与 电力 输出 分 别 比 现行 风机 提高 了 了 25% 和 15%。 

(2) 利用 可 再 生 能 源 技术 使 能 源 更 “绿色 ”, 如 冰岛 的 Green Earth Data 与 Green Qloud 
公司 ,依靠 冰岛 丰富 的 地 热 与 水 电 资 源 驱动 ,为 数据 中 心 提供 100% 的 可 再 生 能 源 。 

(3) 实现 能 源 管理 智能 化 。 能 源 产 业 可 以 利用 大 数据 分 析 天 然 气 或 其 他 能 源 的 购买 
量 、 预 测 能 源 消费 ,管理 能 源 用户 ,提高 能 源 效 率 、 降 低能 源 成 本 等 。 大 数据 与 电网 的 融合 可 
组 成 智能 电网 ,涉及 发 电 到 用 户 的 整个 能 源 转换 过 程 和 电力 输送 链 , 主 要 包括 智能 电网 基础 
技术 、 大 规模 新 能 源 发 电 及 并 网 技术 、 智 能 输电 网 技术 、 智 能 配 电网 技术 及 智能 用 电 技 术 等 ， 
是 未 来 电网 的 发 展 方向 。 

(4) 改变 社会 ,为 城市 基础 设施 、 能 源 、 交 通 、 环 境 等 带 来 机 遇 。 大 数据 使 城市 越 来 越 智 
能 化 ,纽约 ,芝加哥 与 西雅图 向 公众 开放 数据 ,鼓励 建设 多 样 化 的 智能 城市 。 

以 电力 行业 为 例 , 电 力 大 数据 涉及 发 电 、 输 电 、 变 电 、 配 电 、 用 电 、 调 度 各 环节 ,对 电力 大 
数据 进行 挖掘 需要 跨 单位 . 跨 专业 。 越 来 越 多 的 企业 在 思考 如 何 利 用 大 数据 对 业务 进行 战 
略 性 的 调整 ,并 通过 数据 分 析 ,加工 成 更 具有 高 价值 的 数据 ,开拓 并 全 面 掌控 企业 业务 。 国 
家 电网 在 北京 亦庄 `. 上 海 、 陕 西 建立 了 3 个 大 数据 中 心 ,其 中 北京 亦庄 大 数据 中 心 已 安装 超 
过 10200 个 传感器 ,它们 及 时 采集 数据 ,存储 到 云 并 进行 分 析 和 利用 ,每 个 月 可 节约 的 能 耗 
价值 约 为 30 万 元 。 电 力 大 数据 ,是 要 通过 对 电力 系统 海量 数据 的 采集 分 析 ,推动 其 生产 运 
作 方 式 的 优化 ,甚至 是 挖掘 出 大 量 高 附加 值 的 信息 内 容 进 行 行业 内 外 的 增值 服务 。 除 了 电 
力 领 域 ,在 石油 ,新 能 源 方面 ,大 数据 应 用 也 越 来 越 广泛 。 


12. 12.2 公共 事业 管理 大 数据 应 用 


对 于 政府 部 门 来 说 ,大 数据 将 提升 电子 政务 和 政府 社会 治理 的 效率 。 大 数据 的 包容 性 
将 打开 政府 各 部 门 间 、 政 府 与 市 民间 的 边界 ,信息 孤岛 现象 大 幅 前 减 ,数据 共享 成 为 可 能 , 政 
府 各 机 构 协 同 办 公 效 率 和 为 民办 事 效率 提高 ,同时 大 数据 将 极 大 地 提升 政府 社会 治理 能 力 
和 公共 服务 能 力 。 对 于 大 数据 产业 本 身 来 说 ,政府 及 公共 服务 的 广泛 应 用 ,也 使 其 得 到 资金 
及 应 用 支持 ,从 而 在 技术 和 应 用 领域 上 得 到 及 时 的 更 新 与 反馈 ,促使 其 更 迅猛 地 发 展 。 近 年 
来 ,包括 医疗 .教育 ,政务 数据 存储 、 防 灾 等 方面 的 应 用 尤其 突出 。 

利用 大 数据 整合 信息 ,将 工商 国税 、 地 税 、 质 监 等 部 门 所 收集 的 企业 基础 信息 进行 共享 
和 比 对 ,通过 分 析 , 可 以 发 现 监管 漏洞 ,提高 执法 水 平 , 达 到 促进 财税 增收 、 提 高 市 场 监管 水 
平 的 目的 。 建 设 大 数据 中 心 , 加 强 政 务 数据 的 获取 、 组 织 , 分 析 、 决 策 ,通过 云 计算 技术 实现 
大 数据 对 政务 信息 资源 的 统一 管理 ,依据 法 律 法 规 和 各 部 门 的 需求 进行 政务 资源 的 开发 和 
利用 ,可 以 提高 设备 资源 利用 率 、 避 免 重复 建设 、 降 低 维护 成 本 。 

大 数据 也 将 进一步 提高 决策 的 效率 ,提高 政府 决策 的 科学 性 和 精准 性 ,提高 政府 预测 预 
警 能 力 以 及 应 急 响 应 能 力 ,节约 决策 的 成 本 。 以 财政 部 门 为 例 ,基于 云 计算 、 大 数据 技术 , 财 
政 部 门 可 以 按 需 掌握 各 个 部 门 的 数据 ,并 对 数据 进行 分 析 , 作 出 的 决策 可 以 更 准确 、 更 高 效 。 
男 外 ,也 可 以 依据 数据 推动 财政 创新 ,使 财政 工作 更 有 效率 、 更 加 开放 、 更 加 透明 。2008 年 ， 
法 国 总 统 萨 科 齐 组 建 了 一 个 专家 组 ,成员 包括 以 诺 贝尔 经 济 学 奖 获得 者 约瑟夫 。 斯 带 格 利 
茨 和 阿 玛 蒂 亚 。 森 在 内 的 20 多 名 世界 知名 专家 ,进行 了 一 项 名 为 “幸福 与 测度 经 济 进步 ”的 
人 研究。 该 研究 将 国民 主观 幸福 感 纳 入 了 衡量 经 济 表现 的 指标 ,以 主观 幸福 度 、 生 活 质 量 及 收 























和 分配 等 指标 来 衡量 经 济 发 展 值 。 


小 结 


本 章 对 大 数据 在 现行 的 各 行 各 业 应 用 领域 进行 了 案例 总 结 , 并 给 出 了 案例 操作 说 明 , 包 
括 社交 网 络 分 析 、 推 荐 系统 、 零 售 行业 大 数据 解决 方案 ,大 数据 金融 .医疗 大 数据 应 用 、 智 能 
交通 大 数据 ,生产 制造 业 大 数据 解决 方案 .信息 通信 大 数据 解决 方案 ,大 数据 精准 营销 、 教 育 
领域 大 数据 应 用 与 互联 网 大 数据 应 用 。 





(1) 简 述 大 数据 挖掘 的 应 用 领域 。 

(2) 什么 是 社交 网 络 分 析 ? 在 社交 网 络 服务 及 社交 媒体 中 如 何 应 用 大 数据 分 析 ? 
(3) 什么 是 推荐 系统 ? 推荐 系统 包括 的 四 种 推荐 方式 是 什么 ? 

(4) 目前 比较 流行 的 个 性 化 推荐 有 几 种 ? 分 别 解释 其 意义 。 

(5) 试 解释 医疗 行业 大 数据 的 5 大 应 用 场景 。 

(6) 在 教育 学 习 领 域 ,大 数据 中 提取 价值 的 5 种 主要 的 技术 是 哪些 ? 

(7) 举例 说 明 大 数据 在 互联 网 中 的 应 用 。 
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